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PRÉFACE À L'ÉDITION FRANÇAISE 


Le problème de l’indétermination a priori nous semble assez 
intéressant pour être traité dans le cadre des problèmes de la synthèse 
statistique des systèmes optimaux de réception et de traitement 
de l’information. 

En effet, essentiel des points de vue philosophique, méthodolo- 
gique et pratique de la théorie des probabilités et de la mathématique 
statistique, ce problème a acquis de nos jours une importance toute 
particulière car les conceptions probabilistes et statistiques se 
trouvent matérialisées dans de nombreux domaines techniques. 

Nous ne prétendons pas cerner complètement le problème. Cette 
entreprise aurait abouti à un ouvrage très volumineux et donc ayant 
peu de chances d’être lu. Nous avons choisi à notre goût certaines 
approches du problème de la synthèse des systèmes informationnels 
dans les conditions d’indétermination a priori. 

D'abord la méthode adaptative. Certes, elle mérite une attention 
plus grande qu'il n’a été possible de lui prêter dans cet ouvrage. 
La seule excuse à ce manque d’attention est qu'il existe une littéra- 
ture abondante consacrée à cette question. En revanche, nous traitons 
en détail le principe spécial de l’optimalité asymptotique qui dans 
de nombreux cas peut avantageusement se substituer ou être associé 
à la méthode adaptative. 

On trouvera également les méthodes traditionnelles qui ont été 
longtemps utilisées pour surmonter l’indétermination a priori, 
à savoir les méthodes non paramétriques. Tout récemment encore, 
ces méthodes semblaient peu attractives pour les applications 
radiotechniques et dans les télécommunications, mais aujourd’hui, 
combinées à d’autres principes, elles ouvrent des perspectives inté- 
ressantes. Enfin, dans certains cas la théorie classique des décisions 
offre des procédures efficaces pour surmonter l’indétermination 
a priori; c'est le cas par exemple des observations caractérisées par 
une famille exponentielle de distributions des probabilités. 

Un grand nombre de résultats exposés dans ce dernier volume 
de notre monographie, notamment ceux du troisième chapitre et 
certains autres sont originaux, ils ont été obtenus par l’auteur et ses 
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élèves. Certains des résultats mentionnés ont été publiés dans des 
revues soviétiques et étrangères depuis 1967. 

Les matières exposées dans cet ouvrage sont essentiellement 
basées sur le cours spécial consacré au problème de l’indétermination 
a priori dans la radiotechnique statistique, professé par l’auteur 
depuis 1972 à l’Institut Electrotechnique des communications. 
Cette expérience pédagogique nous a beaucoup aidé dans la prépara- 
tion de cet ouvrage. Un cours analogue a été donné en 1972 à l’Uni- 
versité technique de Budapest où nous avons eu des discussions fort 
utiles avec le professeur Sandor Cs i bi. Tous ceux qui enseignent 
savent que ce n’est qu'après avoir traité une question devant un 
auditoire attentif qu’on acquiert la certitude de la connaître à fond. 
Cette certitude alimente l'inspiration, si nécessaire pour le travail 
littéraire. 

Dans l’ouvrage sont conservées les désignations et la terminologie 
adoptées dans les deux premiers volumes parus en français en 1973 
dans les Editions « Mir ». 

L'auteur serait reconnaissant à tous ceux qui trouveraient possible 
d'adresser aux Editions « Mir » leurs remarques et suggestions sur 
l'édition française des trois volumes des « Fondements théoriques 
de la radiotechnique statistique ». 

Lektori benevolo salutem! 

B. LÉVINE 


Professeur à l'Institut 
Electrotechnique des 
communications de Moscou 
Moscou, janvier 1979 


INTRODUCTION 


Durant les dernières décennies la liaison étroite entre le progrès 
technique dans le domaine de l'électronique et des méthodes d'étude 
des systèmes complexes d'un côté, et la théorie mathématique des 
processus aléatoires et la théorie des décisions de l’autre devient 
toujours plus évidente. Les succès atteints dans la résolution de 
certains problèmes importants sont dus à l’utilisation des méthodes 
probabilistes ; le progrès technique a de son côté stimulé le dévelop- 
pement des méthodes mentionnées. 

À l'heure actuelle on utilise une approche statistique unifiée 
à de nombreuses recherches scientifiques et aux travaux pratiques 
concernant les systèmes informationnels de télécommunications 
terrestres et cosmiques, le radar à grande et petite distance, la 
séismologie et la télémétrie, la radio-astronomie et le sonar, la 
commande automatique des systèmes complexes, la météorologie, 
l'océanographie et le diagnostic médical. 

Une fois que le partage des domaines d’application des modèles 
probabilistes et déterministes est devenu à peu près définitif, on peut 
procéder à une étude critique de la méthodologie et de certains 
résultats de la théorie statistique des systèmes informationnels. 

La formation classique du problème de la synthèse statistique 
du dispositif optimal de réception dans un système de communica- 
tions, inspirée par les travaux de V. Kotelnikov [8] et basée sur le 
critère de Bayes, fait appel en outre au critère de qualité et à un 
grand nombre de caractéristiques a priori des signaux, des bruits 
et à leur mode d'interaction. Cependant souvent l’ingénieur-chercheur 
ou bien ne dispose pas de ces données, ou bien il n’est pas sûr qu'el- 
les soient suffisamment vérifiées, ce qui est un obstacle à l’utilisa- 
tion des résultats de la théorie. De plus, même lorsque l’on surmonte 
l’indétermination a priori au moyen d'hypothèses subjectives, de 
critères de qualité simplifiés ou d’une restriction de la classe des 
modèles utilisés, il est parfois difficile de trouver une solution analy- 
tique simple du problème et d'interpréter la solution sous forme de 
schémas radiotechniques réalisables. En outre, une décision, optimale 
pour certaines hypothèses (par exemple, pour des bruits normale- 
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ment répartis), peut cesser de l’être pour d’autres conditions et, 
par conséquent, pour beaucoup de situations réelles, on a besoin 
d'un grand nombre de systèmes optimaux, ce qui présente un incon- 
vénient du point de vue économique et pratique. 

Au début des années 50, pendant la période « romantique » du 
développement de la théorie statistique des télécommunications, 
Woodward notait avec raison que l’obstacle fondamental empêchant 
l'élaboration d’une théorie satisfaisante de la réception, applicable 
a des systèmes d’observation tels que le radar est, sans aucun doute, 
Ja question des distributions a priori, tant pour les communications, 
que pour les paramètres non essentiels [3]. La théorie des probabilités 
et la statistique mathématique sont historiquement nées de la né- 
cessité de résoudre des problèmes dans des conditions d’indétermina- 
tion ou d’information incomplète, d'analyser les résultats des obser- 
vations de processus physiques soumis à des lois statistiques. Ces 
observations varient d’un cas à l’autre, de sorte qu’il est impossible 
de prédire exactement le résultat de chacune des observations prise 
a part. 

Laissant de côté la question philosophique de savoir si les lois 
de la nature ont un caractère déterministe ou probabiliste, nous 
voulons souligner certaines particularités méthodologiques des for- 
mulations des problèmes pratiques dans les conditions d’indétermi- 
nation a priori. Parfois, on dispose des distributions de probabilité 
de toutes les grandeurs entrant dans les conditions du problème 
données sur l’ensemble de leurs valeurs possibles. On dit que ces 
problèmes sont à information a priori complète. Lorsqu’au contraire 
les distributions de certaines grandeurs ne sont pas données, on 
parle de problèmes à indélermination a priori. 

La théorie de Bayes de vérification des hypothèses statistiques 
et d'estimation des paramètres inconnus (étudiée dans le tome II 
du présent ouvrage) n’est pas applicable à la solution des problèmes 
d’information a priori complète. Mais alors, quelle est l'importance 
pratique de la théorie de Bayes? Ces questions sont étudiées dans 
un grand nombre d'ouvrages. Nous allons donner ici deux points 
de vue: l’un d’entre eux est celui du bien-fondé de l’application 
de la théorie axiomatique des probabilités à la solution des problèmes 
de la pratique courante [6, 7, 13], selon l’autre, les distributions 
probabilistes sont subjectives et ne caractérisent que le degré de 
certitude du chercheur que l'information a priori dont il dispose est 
fiable [6, 15]. Ce dernier point de vue est très répandu parmi les 
statisticiens et. les chercheurs. Laplace a remarqué que la théorie 
des probabilités c’est le bon sens incarné par le calcul. Par cette 
remarque l’éminent déterministe a certainement voulu souligner 
le rôle décisif que jouent les appréciations subjectives a priori. On 
a mème proposé le terme de théorie subjective des décisions statisti- 
ques comme synonyme de la théorie de Bayes [5]. Il existe des problè- 
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mes où l’un des points de vue mentionnés suffit à justifier l’applica- 
tion pratique de la théorie de Bayes. 

Cependant, comme nous l’avons noté ci-dessus, il est souvent 
difficile de donner les répartitions a priori dans les problèmes de la 
synthèse statistique des systèmes informationnels, et même si l’on 
surmonte les difficultés a priori au moyen des hypothèses subjectives, 
on n'arrive pas au résultat désiré. Ainsi, on a vu naître et se dévelop- 
per la théorie de détection, de discrimination, de classification des 
signaux et d'estimation des paramètres de ces derniers en présence 
de bruits, qui consiste à élaborer les méthodes permettant de surmon- 
ter l’indétermination a priori, d'obtenir des structures voisines des 
structures optimales, invariantes au changement des modèles des 
signaux et des bruits et qui soient facilement interprétables dans le 
langage des éléments radiotechniques. 

Dans le présent ouvrage on expose certaines méthodes permettant 
de surmonter l’indétermination a priori, applicables aux problèmes 
de détection et de classification des signaux noyés dans des bruits, 
les bruits étant caractérisés par une large classe de distributions et 
de modes d'interaction avec le signal. 

Dans le premier chapitre on formule les principaux problèmes 
de la synthèse, on examine les données a priori et on fournit les 
résultats fondamentaux formulés précédemment dans la théorie 
de la synthèse statistique avec information a priori complète. Puis 
on montre comment est surmontée l’indétermination a priori, on cite 
les critères de qualité des algorithmes de détection des signaux dans 
les conditions d’indétermination paramétrique et non paramétrique 
a priori, les algorithmes adaptatifs, les algorithmes asymptotique- 
ment optimaux. 

Le second chapitre est consacré aux méthodes non paramétiriques. 
Après un bref aperçu des méthodes de vérification des hypothèses 
sur la forme de la fonction de répartition, on donne un exposé systé- 
matique de la théorie des algorithmes de signe, de rang, de signe- 
rang de détection des signaux noyés dans des bruits. 

Dans le troisième chapitre on donne un exposé complet de la 
théorie des détecteurs asymptotiquement optimaux. On envisage des 
échantillons indépendants et corrélés des algorithmes de rang et des 
algorithmes numériques. 

Dans les deux premiers paragraphes du chapitre 4 on traite des 
algorithmes de classification des observations à partir des échantil- 
lons d'apprentissage et l'on analyse les propriétés asymptotiques des 
statistiques de classification. Puis on donne différentes procédures 
d'apprentissage de Bayes (algorithme de Robbins, algorithmes 
récurrents utilisant l’approximation stochastique et les méthodes 
des fonctions potentielles, algorithme adaptatif de detection d’un 
signal en présence de paramètres perturbateurs, etc.). Le chapitre 
se termine par la théorie des algorithmes adaptatifs asymptotique- 
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ment optimaux, fondée sur les résultats exposés dans le chapitre 3. 

La théorie des algorithmes asymptotiquement optimaux de 
détection des signaux fait pour la première fois l’objet d’une mono- 
graphie. Il est possible que le lecteur remarque une certaine partiali- 
té de l’auteur à l’égard de cette théorie. Bien que l'ouvrage fasse 
une place suffisante aux autres méthodes, la préférence souvent 
donnée aux algorithmes asymptotiquement optimaux ne s'explique 
pas seulement par l’apport de l’auteur et de ses élèves à la théorie 
de ces algorithmes. 

Le défaut majeur des algorithmes non paramétriques (de signe, 
de rang) est justement qu'on ne peut les utiliser que pour des échantil- 
lons indépendants et que le choix de tel ou tel algorithme s'inspire 
de considérations euristiques. La theorie des algorithmes asymptoti- 
quement optimaux permet de comprendre en quel sens l’algorithme 
non paramétrique donné est optimal. Cette théorie est applicable 
aussi bien aux échantillons indépendants qu'aux échantillons corré- 
lés. Et bien que les algorithmes asymptotiquement optimaux ne 
soient pas, en toute rigueur, non paramétriques, il y a une sépara- 
tion fonctionnelle bien nette de l'influence de la distribution des 
bruits et de la forme du signal et, lorsqu'on y ajoute un dispositif 
d'adaptation, ils deviennent non paramétriques. 

On sait que l’utilisation des méthodes asymptotiques en sta- 
tistique permet de trouver, pour une vaste classe de phénomènes, 
des lois générales ne dépendant pas des propriétés individuelles des 
représentants de cette classe. En règle générale, ces lois asymptoti- 
ques sont des variantes de la loi des grands nombres ou du théorème 
de la limite centrale de la théorie des probabilités. 

La théorie des algorithmes asymptotiquement optimaux de 
détection des signaux noyés dans des bruits permet de donner un 
sens nouveau aux résultats bien connus de la théorie de détection 
de Bayes, obtenus pour le modèle d'un bruit normal additif. De 
plus, on peut utiliser ces résultats non seulement dans le cas où le 
modèle du bruit correspond à la situation réelle, mais également 
pour la synthèse des algorithmes asymptotiquement optimaux de 
détection des signaux pour des bruits quelconques, car pour la réali- 
sation de ces algorithmes on utilise, dans la plupart des cas, des 
convertisseurs non linéaires inertiels des statistiques suffisantes 
dont la distribution asymptotique des probabilités est normale. 

Cette dernière conclusion permet de présenter les détecteurs 
asymptotiquement optimaux sous la forme de deux dispositifs. 
Dans le premier, on forme les statistiques asymptotiquement suffi- 
santes à partir des données a priori ou à l’aide des échantillons d’ap- 
prentissage. Le second se compose d’éléments utilisés dans les deé- 
tecteurs modernes: filtres adaptés, corrélomètres, intégrateurs, éle- 
ments à seuil. La caractéristique du convertisseur non linéaire 
d'entrée dépend de la distribution du bruit, et si l’on ne connaît 
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pas cette distribution, on peut obtenir une estimation de la caracté- 
ristique mentionnée à l’aide d’un échantillon d’apprentissage. 

L'utilisation des algorithmes asymptotiquement optimaux pour 
des échantillons de taille peu importante (ce qui correspond aux 
conditions réelles de leur utilisation) est également justifiée, à condi- 
tion qu'ils convergent vers l'algorithme optimal suffisamment vite. 
Les algorithmes ainsi obtenus sont souvent même meilleurs que les 
algorithmes basés sur d’autres principes. [1 importe de savoir la 
taille des échantillons (ou le temps d'observation) pour laquelle la 
perte en qualité entraînée par l’emploi d’un algorithme asymptoti- 
quement optimal ne dépasse pas une certaine grandeur. On peut 
résoudre ce problème ardu soit sous forme analytique, soit en accu- 
mulant les résultats d’une simulation sur ordinateur. Nous ne touche- 
rons pas à cette question dans notre ouvrage. Nous nous bornerons 
à dire que nous disposons de données expérimentales portant à croire 
que dans certains cas la perte relative n'est pas supérieure à quelques 
pour cent lorsque la taille de l'échantillon est de l'ordre de cinq 
cents. On peut noter à cet effet un travail récent [14], où l’on étudie 
le rôle des ordinateurs en tant qu'outil d'expérimentation permettant 
non pas de démontrer mais de formuler une hypothèse acceptable. 

On peut espérer que les algorithmes asymptotiquement optimaux 
trouveront de vastes domaines d'application. Nous allons seulement 
mentionner les applications les plus évidentes de notre point de vue, 
à savoir: les télécommunications cosmiques, la radio-astronomie, 
les mesures des paramètres des cibles s’éloignant. L'extension du 
domaine d'application des algorithmes asymptotiquement optimaux 
exigera, dans certains cas, une augmentation notable de la vitesse 
de fonctionnement des dispositifs techniques utilisés, afin qu’il soit 
possible, durant un temps suffisamment court, d’accumuler un 
échantillon de taille suffisante et d’avoir le temps d'effectuer toutes 
les opérations prescrites par l'algorithme. 

[1 y a lieu de souligner enfin que dans le présent ouvrage on se 
limite aux classes d’algorithmes convergeant « bien » vers les algo- 
rithmes optimaux lorsque la taille de l'échantillon observé (ou 
d'apprentissage) augmente indéfiniment. Nous ne voudrions pas que 
cette limitation soit comprise comme un principe orthodoxe, excluant 
toute méthode euristique. Ainsi, par exemple, bien que les algorith- 
mes asymptotiquement optimaux soient une approximation ration- 
nelle des algorithmes optimaux, il est possible qu’on trouve, pour 
des échantillons de taille finie, une autre méthode d'approche, tout 
comme l'approximation par des sommes finies de séries divergentes 
se trouve être parfois meilleure que celle des séries convergentes 
pour un même nombre de termes de la série. Il en est de même pour 
le cas de l’utilisation d’'estimations non consistantes des paramètres 
pour des tailles réduites des échantillons ou pour l'affirmation 
qu'étant donné le petit coefficient d'efficacité asymptotique relative 
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l’utilisation d’un algorithme non paramétrique n’est pas efficace 
pour un échantillon de petite taille. 

Les problèmes de la synthèse optimale des algorithmes de détec- 
tion et de classification des signaux pour un intervalle de temps 
d'observation limité (échantillon de taille finie) sont étudiés dans 
le chapitre 5. Pour les résoudre, on fait appel aux principes de simi- 
litude et d'’invariance, parfaitement efficaces dans les conditions 
d’indétermination paramétrique en présence de bruits additifs 
normaux corrélés, de puissance moyenne inconnue ou de spectre 
énergétique à paramètres inconnus. 

Dans le présent ouvrage, seuls sont étudiés en détail les problèmes 
de la détection des signaux noyés dans des bruits (problème de la 
vérification d’une hypothèse contre une alternative). Cependant. les 
méthodes proposées pour surmonter l’indétermination a priori peu- 
vent également être utilisées dans des problèmes plus généraux de 
discrimination des signaux (vérification des hypothèses à alter- 
natives multiples), ainsi que dans les problèmes de détection simul- 
tanée et d'estimation des paramètres. Dans la bibliographie des 
chapitres correspondants, on peut trouver les références d'ouvrages 
où figurent des généralisations détaillées. 

Toute monographie a certaines limites: son volume, le délai 
d'édition, le public, les intérêts scientifiques de l’auteur, etc. C’est 
pourquoi de nombreux problèmes pratiques intéressants touchant 
au choix de la décision dans des conditions d’indétermination a priori 
se sont trouvés en dehors du cadre de cet ouvrage. Il y a lieu avant 
tout de citer à cet égard le problème de prise d’une décision dans 
des situations de conflit, lorsque l'information a priori inconnue 
n'est pas soumise à l'effet des circonstances objectives mais subit 
l'influence d’un adversaire. Ce problème est envisagé comme un 
« jeu » avec un adversaire (la nature) dont, dans le cas général, on 
ne connaît pas la stratégie. Parfois la stratégie du chercheur est 
fondée sur l’hypothèse que l’adversaire choisit toujours la réparti- 
tion la moins favorable des paramètres du problème. Cette stratégie 
conduit à la règle du minimax de choix d’une décision. 

La théorie des décisions de Bayes peut être considérée comme 
une partie spéciale de la théorie des jeux lorsque le « jeu » est mené 
contre un adversaire « faible » dont la stratégie, dans le sens proba- 
biliste, est connue du chercheur. Parmi l’abondante littérature 
consacrée à la théorie des jeux, on peut recommander [2] et pour une 
étude plus approfondie [4] où le lecteur trouvera des références 
supplémentaires. 

Les problèmes que nous envisageons se rapportent aux systèmes 
informationnels ouverts qui sont une idéalisation admissible pour 
un grand nombre de problèmes du radar et des télécommunications. 
Par contre, les systèmes de commande automatique sont le plus 
souvent des systèmes fermés que l’on ne peut pas ramener à des 
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systèmes ouverts. L’insuffisance d’information a priori conduit à la 
nécessité d’étudier simultanément le phénomène à commander et la 
commande. Les actions de commande qui dans ces situations revêtent 
un caractère double portent le nom de commande duale. Les questions 
de la commande duale, basées sur la théorie des décisions statistiques, 
sont étudiées dans la monographie fondamentale [11] (voir égale- 
ment [12]. Aux problèmes de la commande optimale doivent leur 
développement les méthodes mathématiques nouvelles de résolution 
de problèmes variationnels, notamment le principe du maximum de 
Pontriaguine et la méthode de programmation dynamique [1, 9, 10]. 

La théorie de la synthèse des systèmes informationnels en cas 
d'indétermination est loin d’être achevée. Les succès les plus impor- 
tants étaient toujours liés, et le seront dans l'avenir, à notre avis, 
aux méthodes statistiques, bien qu'on doive être prêt à faire face 
aux difficultés. Ainsi par exemple, on note dans [16] que des diffi- 
cultés de ce genre apparaissent lors de l’analyse de systèmes comple- 
xes dont un élément est l’homme ou une collectivité, aussi propose- 
t-on dans cet article une nouvelle approche du problème du choix 
d’une décision, inspirée de la théorie des ensembles non distincts. 

À l'affirmation pessimiste de M. Zadeh « plus notre analyse 
du problème est profonde et plus sa solution devient incertaine » 
on peut opposer les admirables paroles du poète : « Plus la nuit est 
noire et plus les étoiles sont brillantes ». 


CHAPITRE PREMIER 


PROBLÈME DE L'ÉLIMINATION 
DE L'INDÉTERMINATION A PRIORI 


1.1. PROBLÈMES DE LA SYNTHÈSE AVEC INFORMATION 
A PRIORI COMPLÈTE 


1.1.1. Terminologie. Nous allons tout d’abord introduire la 
terminologie dont nous nous servirons dans tout l'exposé ultérieur. 
Il est très important de donner une définition précise des termes 
utilisés, nous en avons vu déjà une partie dans les premières pages 
du présent tome. 

Un système informationnel est un moyen technique de description, 
de traitement, de transmission, de réception, de conservation et de 
perception des communications, c’est-à-dire d’une multitude de 
renseignements utilisés par l’homme pour connaître l'Univers et lui- 
même. Un système informationnel peut être une partie d’un système 
plus important, maïs le critère de qualité de son fonctionnement 
doit être donné d’une manière autonome. Un système informationnel 
fonctionne conformément à un algorithme imposé par ce critère et 
comprenant le choix d'une décision *). Un certain nombre de systè- 
mes informationnels particuliers ont été mentionnés dans l’intro- 
duction. 

La synthèse consiste à déterminer l’algorithme de fonctionnement 
d’un système informationnel suivant un critère de qualité donné 
et à réaliser cet algorithme à l’aide de dispositifs techniques. 

Lors de l’analyse il faut calculer les caractéristiques techniques 
des systèmes informationnels. 

Les informations arrivant dans un système informationnel sont 
des processus aléatoires. Une communication que l’on connaît en- 
tièrement à l’avance (déterministe) n’a pas de valeur information- 
nelle. En radiotechnique, dans les télécommunications, la commande 
automatique et autres domaines techniques les messages sont trans- 
mis par des signaux d’origine physique différente (électrique, électro- 
magnétique, optique, acoustique, etc.). Les signaux sont accompa- 
gnés de bruits. Tant les signaux que les bruits sont en général des 
processus aléatoires soumis à des lois de distribution des probabilités. 


*) Au lieu du terme « algorithme » on ie parfois l'expression « règle 
de choix d’une décision »: en statistique mathématique on utilise les termes 
« test», « critère ». 
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Nous appellerons les grandeurs (fonctions), obtenues à partir des 
lois de distribution données des signaux et des bruits, caractéristiques 
probabilistes (a priori). Les estimations (décisions), obtenues sur la 
base d’échantillons de taille finie ou de réalisations de processus 
observés sur un intervalle de temps fini sont appelées caractéristiques 
statistiques (a posteriori). 

Lorsque l’on utilise des modèles probabilistes de signaux et de 
bruits on se trouve toujours en présence d’une indétermination. Ce- 
pendant nous parlerons de problèmes de synthèse statistique à infor- 
mation a priori complète, lorsqu'on connaît toutes les fonctions de 
répartition des probabilites des signaux et des bruits ainsi que cer- 
taines limitations supplémentaires impliquées par la formulation 
du problème. Au contraire, s’il manque certaines données probabi- 
listes, nous parlerons de problèmes de synthèse statistique dans des 
conditions de l’indétermination a priori. Remarquons que si l’on 
ne dispose d'aucune donnée a priori, la synthèse optimale du système 
informationnel est impossible. Cependant, en réalité, le chercheur 
dispose toujours d’un certain nombre de données (même très limité) 
suggérées par son expérience et son intuition. 


1.1.2. Principaux types de problèmes de la synthèse statistique. 
Détection d'un signal noyé dans un bruit. Le problème 
est de déterminer l’algorithme de traitement du processus observé 
x (t) qui ne peut être que le bruit & (t) ou une combinaison du signal 
S (t) et du bruit & (t). Cet algorithme permet de décider sur la présence 
ou l’absence du signal dans le processus observé. Ce problème se 
formule en termes de vérification de l'hypothèse statistique (simple 
ou composite) H,: x (t) = & (t) contre l’alternative (qui peut elle 
aussi être simple ou composite) Æ,: x (t) = Ë (t) © s (t) (le symbo- 
le @ désigne une interaction quelconque entre le bruit et le signal). 

Les caractéristiques de travail de l’algorithme de détection sont 
les relations entre le risque moyen, la probabilité de fausse alarme 
et de perte du signal et les données initiales du problème. 

Discrimination des signaux noyés dans 
le bruit. Le problème consiste à trouver l’algorithme de traite- 
ment du processus observé zx (t) qui est une combinaison du bruit et 
d’un signal s, (t) appartenant à un ensemble de signaux s (t), ... 

-… Sm (t). L’algorithme doit permettre de dire lequel des signaux 
est présent dans le processus observé. Ce problème est une variante 
à alternatives multiples du problème de vérification des hypothèses 
statistiques ],: xt) —E(t) Q sat), k = 0, ..., m. 

Les caractéristiques de l'algorithme de discrimination sont le 
risque moyen, ainsi que la probabilité de « confusion » des signaux. 

Séparation des signaux noyés dans le 
bruit. Le problème consiste à trouver l'algorithme de traitement 
du processus observé qui est une combinaison du signal et du bruit, 
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tel qu’il donne l'estimation d'une ou de plusieurs caractéristiques 
inconnues du signal. Ces caractéristiques peuvent être des nombres 
ou des fonctions du temps, de la fréquence, des grandeurs ou des 
processus aléatoires. Les caractéristiques de l'algorithme de sépara- 
tion sont la variance, l’écart et la covariance des estimations, le 
risque moyen. 

Détection simultanée (discrimination) 
des signaux et estimation de leurs para- 
mètres en présence de bruits. Il ya lieu de détermi- 
ner l'algorithme de traitement du processus observé, qui est une 
combinaison du signal (ou d’un signal appartenant à un ensemble 
de signaux) et du bruit ou seulement le bruit, appelée à répondre aux 
deux questions suivantes fonctionnellement liées: si, oui ou non, 
le signal (un signal appartenant à un certain ensemble) est présent 
dans le processus observé et quelle est la valeur de la caractéristique 
du signal (estimation des paramètres). Dans le problème envisagé 
l'estimation doit être réalisée dans les conditions d'incertitude 
quant à la présence du signal, contrairement au problème où les 
paramètres du signal sont estimés dans l'hypothèse que celui-ci 
est présent dans le processus observé. 


1.1.3. Critères de qualité et données a priori nécessaires (détec- 
tion et discrimination des signaux) *). Dans les problèmes de la 
discrimination (détection) des signaux on utilise le critère du mini- 
mum du risque moyen (critère de Bayes). La règle de Bayes optimale 
de discrimination de m + 1 signaux, c'est-à-dire de la partition 
optimale de l’espace euclidien échantillionné X à nr dimensions 
en m + 1 domaines disjoints X,, 4 — O0, ..., m, est basée sur la 
minimisation du risque moyen 


m m m 
R=Y pyrj= >, > Pillr | Wn (x|S;) dx, 
3=0 3=0 À=0 XR 


Üx=x, (1.1) 


où (I1;:) est la matrice des pertes; p,; la probabilité a priori de la 
présence du signal s;, j — 0, ..., m; w, (x | s;) la densité de pro- 
babilité conditionnelle (fonction de vraisemblance) de l'échantillon 
X — (2,, -.., zh) dans l'hypothèse de la présence du signal s;,, 
et r; le risque conditionnel. 

Ainsi, pour l’utilisation du critère d’optimum de Bayes un 
grand nombre de données a priori sont nécessaires, à savoir, la 


*) Dans les pp. 1.1.3 à 1.1.12 on trouvera un bref aperçu des résultats fon- 
damentaux de la théorie de la synthèse statistique dans les conditions d'infor- 
mation a priori complète (voir, par exemple, le tome II ainsi que [1, 6, 10]). 
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matrice des pertes, les probabilités a priori de présence des signaux, 
les modèles des signaux et des bruits déterminant les fonctions de 
vraisemblance de l'échantillon. Soulignons que l’hypothèse H, sur 
la présence du signal s, est également une information a priori. 

Lorsque les probabilités a priori p;, j — 0, ..., m, ne sont 
pas données on utilise le critère du minimax. L'algorithme du mini- 
max est celui dont la valeur des maxima du risque conditionnel r;, 
j —=0,..., m, est minimale par rapport à d’autres algorithmes. 
L’algorithme du minimax est un cas particulier de l’algorithme de 
Bayes pour la distribution p*, j — 0, ..., m, pour laquelle le 
risque de Bayes 

R(P6, -.., Pm)ZR(Po, ---, Pm)- 


Lorsque l’on ne connaît pas la matrice des pertes (I1;;) on utilise 
le critère du maximum de la probabilité a posteriori; il s’agit de 
choisir la plus grande des valeurs des probabilités a posteriori des 
signaux pour l'échantillon donné x 


P {s,1x} - _— (x | sy) 


> PkWn (x | Sx) 
k=—0 


1=0; ;::,, M. (1.2) 


Si l’on ne connaît ni les probabilités p;, ni la matrice des pertes, 
on utilise le critère du marimum de vraisemblance qui consiste à choi- 
sir la plus grande des valeurs de la fonction de vraisemblance 
Wn (X1S;), J = 0. ..., m. 

I1 y a lieu de souligner que la synthèse des algorithmes optimaux 
de discrimination suivant l’un quelconque des critères mentionnés 
n’est possible que si l’on dispose de données a priori permettant de 
calculer la fonction de vraisemblance w, (x |s;), j — 0, ..., m. 

Dans les problèmes de détection (cas binaire: hypothèse H, — 
il n’y a pas de signal, hypothèse H, — le signal est présent) on 
utilise le critère de Neyman-Pearson. La procédure consiste à se don- 
ner la probabilité de fausse alarme 


a= | w, (xl Ho) dx (1.3) 
X: 
et à minimiser la probabilité de perte du signal 


B— | w, (xl H,) dx. (1.3°) 
Xe 


Pour utiliser le critè e de Neyman-Pearson il n’est pas nécessaire 
de connaître la probabilité a priori de présence du signal ni la gran- 
deur des pertes dues aux décisions erronées. Mais les modèles des 
signaux et des bruits (fonctions de répartition w, (x | H;), i — 0; À) 
doivent être complètement déterminés (dans le sens probabiliste) 
et, de plus, on doit connaître la probabilité des fausses alarmes. 
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1.1.4. Critères de qualité et données a priori indispensables (esti- 
mation des paramètres). Le critère du minimum du risque moyen 
(critère de Bayes) est également utilisé pour l'estimation des para- 
mètres non observés du signal d’après l'échantillon observé x — 
= (x, ..., z,) du mélange du signal et du bruit. Soient ® — 
— (01, ..., 0.) un vecteur des paramètres aléatoires d’un signal 
à densité de probabilité mutuelle w,, (0) donnée, et L, (®) — 
= Wn (Zi, + - «+ Zn | Ÿ) la fonction de vraisemblance de l'échantillon: 
L'estimation de Bayes optimale ô du paramètre vectoriel ® € 8 
s'obtient par minimisation du risque moyen rh 


R= | | uw (0)I1 (6, 8) L.(8)dxd8 (1.4) 

8 * | 
où II (#, ©) est la fonction de pertes. En vertu de (1.4), pour trouver 
les estimations de Bayes des paramètres des signaux il faut connaîtré 
la distribution a priori des paramètres, la fonction de pertes et la 
fonction de vraisemblance de l'échantillon, cette dernière étant 
définie à partir des modèles connus du signal et des bruits. 


Minimiser le risque moyen À revient à minimiser le risque 
a posteriori 


= | II(Ë, 6) (8x) dé. (1.4) 
6 


Lorsque la fonction de pertes n'est pas donnée, pour obtenir 
les estimations on peut utiliser le critère du maximum de densité 
a posteriori du paramètre vectoriel du signal *) 


W D x) = —— a (1.5) 
À wm (9) L, (8) dû 
() 

Pour les estimations d’après une réalisation de x (t) observée 
sur un intervalle de temps fini, la fonction de vraisemblance dans 
(1.4) et (1.5) est remplacée par la fonctionnelle du rapport de vraisem- 
blance L [x (t) | ® ]. 

Lorsque l’on ne connaît pas la distribution a priori w,, (®), on 
peut utiliser la méthode du minimax. On recherche une estimation 


telle que la borne supérieure exacte des valeurs de la fonction du 
risque conditionnel 


r(8)= | IL(, 8) L, (8) dx (1.6) 
X 


ne dépasse pas les bornes supérieures des valeurs de r (ÿ) quelles 
que soient les estimations. 


*) On sait que les estimations suivant le critère du maximum de probabi- 
lité a posteriori sont des cas particuliers des estimations de Bayes pour des hy- 
pothèses spéciales (voir tome II, page 122). 
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Parfois on suppose que les paramètres du signal sont des cons- 
tantes inconnues. Lors de la recherche des estimations de ces para- 
mètres on utilise le critère du maximum de vraisemblance en vertu 


duquel l'estimation la meilleure # du paramètre vectoriel 8 est celle 
pour laquelle est atteinte la borne supérieure exacte des valeurs de 
la fonction de vraisemblance L, (©). 

Dans les problèmes de filtrage (d’estimation) d’un signal aléatoire 
non observable E, (it) d’après une réalisation de x (t) du mélange du 
signal et du bruit observée sur un certain intervalle de temps on 
utilise le critère du minimum du carré moyen de l'erreur 
ma {[Es (£) — E, (t)°}, où EË, (t) est l'estimation du signal qui est 
une fonctionnelle de la réalisation observée. Dans certains cas ce 
critère coïncide avec celui du maximum de densité de probabilité 
a posteriori du signal E, (t) après l'observation d’une réalisation 
de x (t). 

Dans les problèmes de détection simultanée et dans ceux d'esti- 
mation des paramètres on utilise également le critère de Bayes. 


1.1.5. Types d'algorithmes. Les solutions des problèmes de 
la détection, de la discrimination et de la séparation des signaux 
se présentent sous forme d'’algorithmes (règles) de transformation 
des observations (échantillons, réalisations) donnant lieu à des 
prises de décision ou de formation d’estimations. Autrement dit, 
les solutions et les estimations sont basées sur des statistiques, 
c'est-à-dire des fonctions des données échantillonnées ou des fonction- 
nelles de réalisations. Les caractéristiques probabilistes de ces sta- 
tistiques sont des caractéristiques de travail des algorithmes corres- 
pondants. 

Un algorithme est dit consistant s’il donne une probabilité d’er- 
reur tendant vers zéro lorsque la taille de l'échantillon augmente 
indéfiniment. Un algorithme de détection, optimal suivant le critère 
de Neyman-Pearson, est consistant si, pour une probabilité de fausse 
alarme donnée, la probabilité de détection correcte tend vers l’unité 
lorsque la taille de l'échantillon augmente indéfiniment. La con- 
sistance d'une estimation signifie sa convergence en probabilité vers 
le paramètre estimé. 

Il y a lieu de distinguer le traitement discret et analogique des 
observations. Dans le premier cas les observations sont présentées 
sous forme d'échantillons de taille finie, c’est-à-dire par les valeurs 
de la réalisation observée du processus aléatoire à des instants don- 
nés *). Dans le second cas les observations sont représentées par la 
réalisation entière du processus aléatoire sur un intervalle de temps 
donne. 

*) Dans le traitement discret on distingue le traitement analogo-discret où 


l'on procède uniquement à une quantification temporelle, et le traitement numé- 
rique où les observations sont quantifiées en temps et en amplitude. 
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Les algorithmes peuvent être simples, lorsque la décision est prise 
pour des tailles données de l'échantillon ou un intervalle donné 
d'observation, et à plusieurs étapes, lorsque l’on peut remettre la 
prise de décision jusqu’à réception de données supplémentaires. 
Dans ce dernier cas la taille de l'échantillon ou le temps d'observa- 
tion sont aléatoires et l’on prend pour critère de qualité de la détec- 
tion du signal le minimum des tailles moyennes de l'échantillon 
(tant pour l'hypothèse que pour l'alternative) avant la prise de 
décision pour une qualité donnée de l'algorithme. 

Les algorithmes récurrents n'utilisant que les dernières observa- 
tions et une certaine statistique de toutes les observations antérieures 
sont d’un grand intérêt pratique. Ces algorithmes permettent de 
simplifier notablement la réalisation des dispositifs de détection 
et d'estimation. 

Parfois on utilise des algorithmes d'apprentissage auxiliaires 
servant à former les estimations des caractéristiques inconnues des 
phénomènes. Souvent on se limite d'avance à une classe donnée 
d'algorithmes, par exemple à des algorithmes linéaires qui sont des 
fonctions linéaires des valeurs échantillonnées ou des fonctionnelles 
linéaires des réalisations observées. 

Dans le cas des processus haute fréquence, la vitesse de fonction- 
nement limitée des moyens techniques dont on dispose peut être un 
obstacle à la réalisation des algorithmes optimaux. On procède 
alors à une détection préalable du processus observé, c'est-à-dire 
que l’on sépare l’enveloppe ou la phase à variation lente d’un proces- 
sus à bande étroite, puis on procède à un traitement optimal postdé- 
lecteur. 


1.1.6. Fonction de décision. Il est parfois commode de formuler 
l'algorithme de détection à l’aide de la fonction de décision ® (x) 
donnée dans l’espace des échantillons X : 


D = xEX,, 1.7 
(x) — 0, x E Xo, ( ° ) 


où À, est le domaine d’adoption de l'hypothèse FH, correspondant 
à la présence du signal (domaine critique); X, le domaine d’adoption 
de l'hypothèse H, — absence de signal. 

La fonction de décision (1.7) correspond à l'algorithme non rando- 
misé. Pour un algorithme randomisé cette fonction peut prendre une 
valeur quelconque de zéro à l’unité et indique la probabilité d'adop- 
tion de l’hypothese J7, *). 


*) Plus exactement, si l'on observe x, on est en présence d’une expérience 


aléatoire à deux issues possibles: À et A, dont les probabilités sont ® (x) et 
1 — © (x). Si À apparaït, on adopte l'hypothèse H, (voir [5]). 
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Les probabilités de fausse alarme et de perte de signal s’expri- 
ment à l’aide de la fonction de décision comme suit: 


a=m{O(x)1Ho}= | © (x) wa (x1Ho) dx, (1.8) 
X 
B=1—m{O(x)H}=1— | Ou, (xiM) dx. (18 
X 


Pour l'algorithme non randomisé donné par la fonction de déci- 
st (1.7), les formules (1.8) et (1.8”) coïncident avec les formules (1.3) 
et (1.3). 

En utilisant (1.7) on peut écrire l'expression (1.1) du risque moyen 
pour le cas binaire de la manière suivante: 


R = oo + PIi0 — | D (x) (2 (io — is) wn (x| 1) — 
X 
— Q (Toi — oo) wa (x1Æ0)] dx, (1.8”) 
où p — 1 — gest la probabilité a priori de présence du signal. 


1.1.7. Modèles du signal et du bruit. On utilise souvent le modèle 
d’un signal quasi déterministe du type 


m 
s (1) = à Dipi (4), (1.9) 
où Ÿ,, ..., M est un ensemble de paramètres inconnus (aléatoires) 
et mp, (ft), . -., Pm (t) sont des fonctions données. En introduisant 
le vecteur des paramètres *) ®” — (Ô,, ..., 0.) et le vecteur 


t 
fonction @ (t) — ES) on peut écrire le signal s ({) comme le pro- 


duit du vecteur ligne ÔŸ” par le vecteur colonne  (t) 
s (4) = ®'œ (1), (1.97) 


c'est-à-dire comme une fonction linéaire des paramètres inconnus. 
Un modèle plus général admet une fonction non linéaire du para- 
mètre Ÿ. Des cas particuliers du signal (1.9) sont un signal détermi- 
niste s (£), un signal d'amplitude aléatoire Ÿs (t), un signal harmoni- 
que d'amplitude et de phase aléatoires 


s (t) — a cos (w4l — p) = a cos p cos wo + a sin p sin wo, 
Ÿ, — a cos p, Ÿ: — a sin y, 
@, (é) — cos wof, p (ft) = sin-wot. (1.10) 


*) Ici et plus bas l’apostrophe désigne la transposition. 
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Dans les systèmes multiplex on voit apparaître des signaux 


S (t) — (s1 (£), . .., sN (t)) vectoriels quasi déterministes qui, géné- 
ralisant (1.9) peuvent s’écrire comme suit: 
s (t) — Ÿ'®D (t), (1.11) 


où ©” est le vecteur ligne de dimension 1 X m des paramètres aléa- 
toires, et ® (t) la matrice de dimension m X N des fonctions de base 
des signaux. 

On utilise également les modèles des signaux stochastiques: le 
processus markovien multiplement connexe et le processus aléatoire 
normal. Dans ce dernier cas un signal stochastique peut s’écrire sur 
l'intervalle (—7, T) comme 


LIT, (1.12) 


où À; > 0, ; (t) sont les valeurs propres et les fonctions oithonor 
mées propres de l'équation intégrale linéaire 


T 
pU)=A | B(, y)p@dy, II<T, (1.13) 
2T 


de noyau égal à la fonction de corrélation B (t, y) du processus 


aléatoire normal s (t), et {8;} sont des grandeurs aléatoires normales 
indépendantes égales à 


T ; 
= VA | SG) pt) dt. (1.14) 
2T 


Le bruit blanc est un modèle très usité du bruit. C'est un processus 
aléatoire hypothétique à spectre énergétique uniforme et de fonction 
de corrélation 


B(t— y) = Noô (t — y), (1.15) 


où V, est la densité spectrale constante du bruit. Le bruit blanc 
normal (de densité spectrale égale à l'unité) peut être défini comme 
la dérivée (dans le sens général) d’un processus de Wiener, c'est-à- 
dire d’un processus aléatoire normal Ë (f) à accroissements indépen- 
dants, pour lequel on a 


ma {E (+ +) — E (t)} = 0, (1.16) 
mu (EG +) — E(DE}= IT. (1.16°) 


Un bruit stationnaire normal corrélé & (t) de moyenne nulle est 
entièrement défini par sa fonction de corrélation B: (1) — 
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= M {E (t) Ë (t + +)}, car sa distribution multidimensionnelle est 


uw (x, 0 = (22) VV det Mi exp { 5x Mix}, (1.17) 


où x’ — (r, ..., Tn)it” — (t,, ..., t,); M! est la matrice inverse 
de la matrice de corrélation M. Les éléments de la matrice carrée M 
de dimension nr x n sont 


Mi; = Bi(ti—t,), l, 1=:1, ss“. D: 


On prend également pour modèle de processus aléatoires et de 
bruits les processus markoviens qui sont des processus aléatoires sans 
post-action. La caractéristique probabiliste d'un processus markovien 
est la densité de probabilité de transition wo (xzis1, tiss | Zi, ta), 
car la densité de probabilité d'ordre quelconque de ce processus 
s'obtient à partir de la condition de factorisation 


n—1 
Wn (Lis ces Tn5 Li, -.., fn) = Wi (Zi, ts) [L Wa (Zi+1, di+slze, di), 


(1.18) 


la densité unidimensionnelle w, (x, t) satisfaisant à la condition 
de compatibilité (voir tome I, 4.5.1). Un processus normal station- 
naire markovien est un processus aléatoire normal de fonction de 
corrélation exponentielle B (t) — B (0) e-Ati. 

Un processus markovien vectoriel E (t) — (E, (t), . . ., &, (t)) est 
caractérisé par un ensemble de densité de probabilité de transi- 
tion w (xisn, tax | Xi, tu), à = 1, 2, . . ., et la densité de probabi- 
lité conjointe de ses composantes est donnée par la formule (1.18) 
a condition d'y remplacer les arguments scalaires par des arguments 
vectoriels. 

Une généralisation du modèle markovien simple est un processus 
markovien de connexité k, c’est-à-dire un processus aléatoire à post- 
action finie *). La densité de probabilité conditionnelle de transi- 
tion dépend dans ce cas non pas de un, mais de X valeurs antérieures 
du processus. En désignant 


= (ru ..., 2j), Cl, ..., tj), (1.19) 


on peut écrire la condition de factorisation de la densité de probabi- 
lité multidimensionnelle d’un processus markovien k-connexe sous 


*) Une suite markovienne k-connexe peut être considérée comme une suite 
markovienne vectorielle 


Xj—=(Tf-hs cs Ty) j—=1, 2, ... 
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la forme 


Wntn (Xp Cart) = We (x; tlux1) X 
n 
x [] w (x, tilxi=}, 422). (1.20) 
= 


Parfois on introduit dans les conditions des problèmes de détec- 
tion, de discrimination et de séparation des signaux les paramètres 
des signaux, des bruits et des effets concomitants, ne présentant 
pas d'intérêt par eux mêmes, mais influant sur la distribution des 
statistiques utilisées pour prendre une décision, car la distribution 
initiale, à laquelle satisfait l'échantillon observe, dépend entre 
autres des paramètres mentionnés. Ces paramètres sont dits pertur- 
bateurs, et les problèmes correspondants sont des problèmes à para- 
mètres perturbateurs. Ce sont, par exemple, l'amplitude et la phase 
initiale d'oscillations harmoniques haute fréquence utilisées en 
radiotechnique en qualité de signaux porteurs d'information utile. 
La puissance des bruits est un autre exemple de paramètre pertur- 
bateur. 

Mentionnons enfin deux modèles essentiels d'interaction d'un 
signal et d’un bruit: le modèle additif et le modèle multiplicatif. 
Dans le premier cas le bruit s'ajoute au signal, et dans le second 
il est multiplié par le signal. A titre d'exemple de bruit additif 
on peut citer le bruit de fluctuation, tandis que l’hétérogénéité du 
milieu traversé par le signal provoque un bruit multiplicatif. 


1.1.8. Algorithmes optimaux de détection et de discrimination 
des signaux. Pour tous les critères de qualité mentionnés, l'algorithme 
optimal de détection du signal déterministe s (t) noyé dans le bruit 
& (t) d’après l'échantillon observé x — (24, . .., Zn), x; — x (ti), 
consiste à comparer avec un seuil le rapport de vraisemblance 
Wa (x! H:;) 

Wan (x] Ho) 
où Hi: z (1) = E (0), Hiï z () = E (0) ® s (D. 
Lors de la détection d’après une réalisation x (t) du processus 


observé dans le cas régulier (voir tome II, 3.4.3) c'est la fonctionnel- 
le du rapport de vraisemblance 


lfz(t)1= lim L(zs, ..., Tn), LE(—T, T) (1.22) 


L (x) — (1.21) 


qui est comparée avec un seuil. 

Dans le cas d’un signal quasi déterministe s ({, Ÿ) on calcule 
tout d’abord le rapport de vraisemblance conditionnel !/ (x | d) 
ou la fonctionnelle du rapport de vraisemblance ! [x (t) | 8], puis 
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on prend les moyennes sur Ÿ 


A (x) = Î L(x]0) w (8) dd, (1.23) 
6 

Alz()1= | Liz ()101wn (0) 48 (1.24) 
6 


que l’on compare avec les seuils. 

Dans le problème de distinction des hypothèses H,: zx (t) — 
— (4) @s(t), k — 0, ..., m, on calcule m rapports de vraisem- 
blance (ou m fonctionnelles du rapport de vraisemblance) 


= Wa (x | H}) ne 

RO GTA) … Hdi: 
le dispositif à seuil étant remplacé par un dispositif de comparaison, 
choisissant le rapport de vraisemblance maximal *). 

fl y a lieu de souligner que le rapport de vraisemblance (fonction- 
nelle du rapport de vraisemblance) est une statistique suffisante, 
c'est-à-dire une fonction de l'échantillon observé z,, . .., x, (de 
la réalisation x (t)) qui permet une réduction des données sans perte 
d’information. Grâce à la réduction l’espace euclidien des échantil- 
lons à n dimensions (espace hilbertien des réalisations) du problème 
de la détection du signal se trouve appliqué sur un ensemble unidi- 
mensionnel des valeurs d'une grandeur aléatoire (non négative): 
rapport de vraisemblance (fonctionnelle du rapport de vraisemblan- 
<e). La décision optimale concernant la présence du signal est prise 
lorsque cette grandeur aléatoire dépasse un certain seuil dépendant 
du critère choisi, et sa répartition des probabilités détermine la 
qualité de la décision prise (probabilité d'erreur). 


1.1.9. Algorithmes optimaux de détection et de discrimination 
des signaux noyés dans un bruit normal additif. L’algorithme optimal 
de détection (de discrimination) des signaux déterministes noyés 
dans un bruit additif normal correlé peut être réalisé à l’aide d’un 
filtre adapté généralisé (ensemble de filtres) et d'un dispositif à seuil 
(dispositif de comparaison). La valeur du processus à la sortie du 
filtre adapté en fin d'observation est une fonctionnelle linéaire 


| V (t) x (t) dt de la réalisation observée zx (t) dont le noyau V (t) 
CT | 


*) Un tel système de discrimination des Maps n est optimal que dans un 
<as particulier. L’algorithme général de Bayes de discrimination des signaux est 
donné dans le second tome de l'ouvrage. 
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est donné par l’équation intégrale linéaire 
T 
Î Bet—u)V(u)du=s(#), (HIT, (1.25) 
=T 


et dépend du type du signal s (£) et de la fonction de corrélation du 
bruit B: (t). 

La variante discrète de l'algorithme optimal découle de l’expres- 
sion du logarithme du rapport de vraisemblance 


In L(z)=s'M"x— À s'M°s, (1.26) 


OÙ x — (ty, + - +, Zn); S° — (Su, - . +, Sn); Si — S(ti), t: E(—T, T) 
et M est la matrice de corrélation du bruit normal. En vertu de cet 
algorithme, il y a lieu de prendre une somme pondérée des valeurs 
échantillonnées du processus et de comparer la somme obtenue avec 
un seuil, c’est-à-dire 


Ux>C+—. (1.27) 
où 
d'= s'M'is. (1.28) 


Les coefficients de pondération sont égaux aux composantes du 
produit U’ — s’M-! du vecteur des valeurs du signal s’ par la matrice 
de corrélation inverse M”! du bruit. La statistique U’x — s'M-!x 
dans (1.27) est une grandeur aléatoire normale de paramètres (0, d°) 
en l’absence de signal et (d°, d°) lorsque le signal est présent *). 

Les probabilités de fausse alarme «& et de détection correcte 
du signal 1 — B se calculent à l’aide de l'intégrale tabulée de 
Laplace F (x) et dépendent du rapport généralisé signal/bruit d° 


œ 


1—$ 


FH)=E | Far (1.30) 


j=1—r(< +), (1.29) 


L'algorithme de détection (de discrimination) peut être généralisé 
au cas d’un signal quasi déterministe qui représente une porteuse, 
à phase initiale aléatoire, modulée en amplitude et en phase. Le 
dispositif de détection (de discrimination) se compose de filtres 
généralisés, adaptés à chaque quadrature du signal, de détecteurs 
quadratiques, de sommateurs et d’un dispositif à seuil (dispositif 


*) Le premier paramètre entre parenthèses est égal à la valeur moyenne de 
la grandeur aléatoire, et le second à sa variance. 
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de comparaison). Une variante plus simple se compose d’un seul 
filtre adapté et d'un détecteur linéaire par signal. 

La structure du détecteur d’un signal quasi déterministe du type 
général (1.9) en présence d'un bruit additif normal corrélé de matrice 
de corrélation M est suggérée par la moyenne du rapport de vraisem- 
blance, qui dans le cas envisagé est de la forme 


A (x) = | L(xl®) &m (©) d8, (1.31) 
6 


où l(x|9) = (x |s) — exp (x'M”!'s — 0,55’ M”). 
Après la substitution s; = s(t;) — 8’ ({;) on obtient en vertu 
de (1.9) 


L(x]®) = exp ('y—0"B8) | (1.32) 

où 
y— Mix”, (1.32°) 
B— @'M-1®, (1.32”) 


« 


® étant une matrice m X n à éléments œ; (t;) et 
x'M=ts —_ x'M-i®'9 = y"Ô _ Ê'y, 
s'M”'s — 0'OM”1®"6 — 0”’B6. 


La matrice de corrélation M est auto-adjointe (hermitienne), par 
conséquent (Mr!) — M-!, B — B’. Si la distribution a priori des 
paramètres du signal (1.9) est normale de vecteur des moyennes Ÿ, 
et de matrice de corrélation D, en calculant l'intégrale (1.31) comme 
convolution des distributions normales on obtient 


det D 1/2 
AD =| xD | 


x exp [ + yB-ty—(y— Bd) (B+B'D7'B)1(y—Bô). (1.33) 


Le détecteur optimal d’un signal stochastique, représentant un 
processus aléatoire normal, dans un mélange additif avec un bruit 
blanc se compose d’un filtre à paramètres variables, d’une ligne 
à retard, d’un multiplicateur, d’un intégrateur et d’un dispositif 
à seuil. L’algorithme de détection est donné par la formule 
T T 
| | z(t)z(v)h(t, v)dtd>C (1.34) 
ST ET 

(voir tome II, 5.2.3). La caractéristique À (t, v) du filtre s'obtient 


à partir d’une équation intégrale linéaire et dépend de la fonction 
de corrélation B, (t, y) du signal et de la densité spectrale NV, du 
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bruit blanc 
T 
| B,(, y)h(y, v)dy+ Noh(e, v)= 
T 


—B,(t, v), LIST, IT. (1.34°) 


Bien que les algorithmes mentionnés correspondent au cas parti- 
<ulier de détection des signaux noyés dans un bruit normal additif, 
leur valeur dépasse le cadre restreint du cas particulier. Comme nous 
allons le voir plus loin, certaines méthodes utilisées pour surmonter 
l’indétermination a priori ne rejettent pas les résultats obtenus 
dans l'hypothèse d'une distribution normale du bruit, mais s’ap- 
puient sur ces résultats. 


1.1.10. Estimation des paramètres et filtrage. L'estimation opti- 
male (de Bayes) Ÿ du paramètre vectoriel 8 d'un signal est égale à la 
moyenne conditionnelle de ce paramètre, si toutefois la densité 


a posteriori du paramètre est symétrique par rapport au mode et si 
la fonction de pertes est paire 


Ô — | 0 W (®1x) d®, (1.35) 
6 


W (0x) = 2e O WG ER (1.36) 
À tm (8) W (x 1.0) 40 


Pour un signal quasi déterministe de la forme (1.9) les estima- 
tions optimales sont données par le système d’équations suivant 
{algorithme discret) [2], dans l'hypothèse que son paramètre vectoriel 
est normal, en présence d’un bruit blanc additif normal corrélé et 
pour une fonction de pertes quadratique : 


Ÿ — 0, —=C(z+ À (Ô —06,)], (1.37) 
où Cr! — A + B-!, 


ôinL , 
Zh —= TI ee x (1 .37 ) 
9° In L ae 
Any 53 er (1.37) 


où Ÿ, et B sont respectivement le vecteur moyenne et la matrice 
des covariances de la distribution normale du paramètre estimé Ÿ ; 
L = L, (Ÿ) est la fonction de vraisemblance du vecteur des observa- 
tions x = (x,, ..., x). 

Lorsque l’on utilise des réalisations continues, le système d’équa- 
tions (1.37) devient une équation intégrale linéaire que l’on peut 
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interpréter à l’aide d’un mesureur asservi formé par des dispositifs 
de traitement non linéaire du signal d’entrée, un filtre de lissage 
et un additionneur. La théorie quasi linéaire de Bolchako v- 
Répine [1] conduit également à l’algorithme (1.37). Cette théorie 
part de l’approximation normale de la distribution multidimen- 
sionnelle a posteriori du paramètre vectoriel estimé en s'appuyant 
sur la condition de haute précision a posteriori des estimations. 

Lors du filtrage linéaire optimal on se limite à des algorithmes 
linéaires et on utilise généralement le critère du minimum du carré 
moyen de l'erreur. La caractéristique d’un filtre linéaire s’obtient 
a partir de l'équation de Wiener-Hopf. Pour trouver un 
algorithme discret de filtrage optimal on utilise le modèle discret 
de cette équation. Lorsque l’on utilise des algorithmes linéaires, 
l’optimum absolu ne peut être obtenu que si le signal et le bruit sont 
répartis suivant une loi normale et qu'ils sont additifs. R. Kal- 
man etR. Bucy [11] ont obtenu des résultats importants sous 
forme récurrente pour le cas non stationnaire. 


1.1.11. Détection simultanée et estimation des paramètres des 
signaux. Pour une fonction de pertes quadratique, la relation entre 
l'estimation de Bayes Ÿ,-, du paramètre Ÿ obtenue dans l'hypothèse 
que le signal est présent dans le processus observé, et l’estimation 
de Bayÿes Ÿ,., de ce paramètre dans l'incertitude quant à la présence 
du signal, est donnée par une relation obtenue par D. Middleton 
et R. Esposito [7] 


Las A Led 
P 1 C / 
AT FT uw (8) W (x]8) d8. (1.38’) 


Ces résultats peuvent être généralisés au cas des alternatives 
multiples et des fonctions de pertes arbitraires. 

Pour des processus aléatoires markoviens le problème de la 
détection simultanée et du filtrage a été posé et résolu par R.S t r a- 
tonovitch et Yu. Sossouline {8]. Ils ont établi la 
relation suivante entre la fonctionnelle du rapport de vraisemblance 


et l’estimation de Markov s (t) du signal d'après le critère du mini- 
mum du carré moyen de l'erreur dans le problème de la détection 
d’un signal markovien en présence d'un bruit blanc normal additif : 


T T 
Inl[z = [T $ (£) z (#) dt —+ | (s&@ra], (1.39) 
0 0 
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où V, est la densité spectrale du bruit blanc; x (t) la réalisation 
observée sur l’intervalle (0, 7) donné. T. Kailath [3] a géné- 
ralisé d’une manière très élégante ces résultats, utilisant à cet effet 
la méthode du processus d'innovation. 


1.1.12. Résumé. Dans son ensemble, l'aperçu que nous venons 
de donner reflète l’état de la théorie de la synthèse statistique des 
systèmes informationnels vers la fin des années 60. Pour obtenir 
des solutions générales on a besoin d’un grand nombre de données 
a priori. Les solutions particulières sous forme fermée, assez facile- 
ment interprétables, ont été obtenues pour une classe restreinte de 
modèles des signaux et des bruits. La présence de bruits corrélés en- 
traîne toujours de grandes difficultés de calcul liées à l’inversion 
de matrices d'ordre élevé ou à la résolution d'équations intégrales. 
Tout changement de modèle entraîne un changement fondamental de 
l'algorithme. La critique de cet état de choses dans la théorie a donné 
naissance à une nouvelle branche, liée à l’élaboration de méthodes 
permettant de surmonter l'indétermination a priori dans les problè- 
mes de la synthèse statistique, à la recherche d’algorithmes voisins 
de l'optimum (optimum pour une information a priori complète) 
et stables, ne serait-ce que partiellement, vis-à-vis des variations 
éventuelles de la conjoncture initiale. 


1.2 PROBLÈMES DE LA SYNTHÈSE DANS LES CONDITIONS 
DE L'INDÉTERMINATION A PRIORI 


1.2.1. Indétermination a priori paramétrique et non paramétrique. 
On distingue deux classes de problèmes de la synthèse statistique des 
systèmes d'information dans des conditions d'’indétermination 
a priori: paramétriques et non paramétriques. 

Dans les problèmes à indétermination a priori paramétrique 
on donne une famille paramétrique de fonctions de vraisemblance 
Un (X | 8) d’un échantillon ou un ensemble paramétrique de fonc- 
tionnelles du rapport de vraisemblance ! [x (t) | 8] d’une réalisa- 
tion. L'indétermination a priori concerne certains paramètres ou 
tout l’ensemble de paramètres ® — (Ÿ,, ..., Ô0,) dont dépendent 
les caractéristiques du signal et du bruit. 

Si le vecteur des paramètres ® est donné, les observations qui 
sont un échantillon aléatoire ou une réalisation d’un processus 
aléatoire, sont entièrement déterminées du point de vue statistique. 
Cependant, les cas où les familles w, (x | 8) (ou Z {x (t) | 8] ) sont 
constituées par un seul élément et par conséquent les hypothèses 
vérifiées sont simples et sont plutôt d'heureuses exceptions; plus 
souvent on a affaire à une famille de distributions paramétrique 
pour laquelle le paramètre vectoriel Ÿ appartient à un certain domaine 
de l’espace euclidien à m dimensions (ou à l’espace tout entier). 
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Il est naturel de demander quelle est la nature de ce paramètre: 
est-ce une constante vectorielle inconnue ou une grandeur vectorielle 
aléatoire. Autrement dit, y a-t-il sur l’ensemble 6 une densité w,, (Ô) 
qui détermine les valeurs plus ou moins probables de 8 ou bien cette 
<aractéristique probabiliste n'existe pas? La réponse à cette question 
constitue également une donnée a priori, et chacune des deux réponses 
mentionnées peut être mise à la base d’une conception qui permettra 
de formuler les critères de qualité et les méthodes de résolution des 
problèmes de la synthèse statistique. 

La théorie de Bayes de vérification des hypothèses statistiques 
‘et d'estimation des paramètres est fondée sur la conception de para- 
mètres aléatoires à densité mutuelle w,, (8) donnée *). Dans les con- 
ditions d’indétermination a priori, les problèmes correspondants se 
formulent dans l'hypothèse que le paramètre vectoriel 8 est aléatoire 
et que l’indétermination a priori concerne la densité w,, (®) de ce 
paramètre. 

Dans les problèmes d’indétermination a priori non paramétrique, 
la famille des fonctions de vraisemblance w, (x) de l’échantillon est 
non paramétrique en ce sens qu'on ne peut pas lui faire correspondre 
d’une manière univoque un certain domaine de l’espace euclidien 
de dimension finie. Une famille non paramétrique de fonctions de 
vraisemblance peut comprendre, par exemple, toutes les fonctions 
normées non négatives. 

Par exemple, la famille de fonctions de vraisemblance des bruits 
normaux corrélés, à fonction de corrélation inconnue (ou à spectre 
énergétique inconnu) est non paramétrique. Dans le sens de Bayes, 
la famille de distributions w, (8) des paramètres inconnus Ÿ — 
— (0,, ..., Üm) de la fonction de vraisemblance d'un échantillon 
peut ètre une famille non paramétrique. 

La théorie non paramétrique des décisions est développée essen- 
tiellement pour les problèmes à deux hypothèses ; à titre d'exemple 
on peut citer le problème de la détection d’un signal en présence de 
bruits. On entend par algorithmes non paramétriques les algorithmes 
de traitement des observations invariants (c'est-à-dire laissant cons- 
tante la valeur de la probabilité d'erreur) par rapport à l’une des 
hypothèses non paramétriques. Par exemple, dans le problème de la 
détection d'un signal noyé dans un bruit l’utilisation d’un algorithme 
non paramétrique assure la constance de la probabilité de fausse 
alarme pour une répartition quelconque des probabilités des bruits. 
Si l’invariance de l’algorithme est assurée à la limite, lorsque la 
taille de l'échantillon tend vers l'infini, l'algorithme est dit asympto- 
tiquement non paramétrique. Un algorithme « réellement » non para- 


*) Dans la théorie de Bayes le moyennage des fonctions de vraisemblance 
sur les paramètres aléatoires permet de réduire le problème de la vérification des 
hypothèses composées à la vérification des hypothèses simples. 
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métrique devrait être invariant par rapport aux deux hypothèses 
en vérification. L'établissement des estimations de fonctions de 
vraisemblance w, (x) inconnues d’après un échantillon observé est 
également un problème de la statistique non paramétrique. 

L’'invariance partielle de l'algorithme de traitement des observa- 
tions vis-à-vis de l’une des hypothèses non paramétriques est parfois 
intéressante. Ainsi, lorsqu'il s'agit de détecter un signal en présence 
de bruits, on peut formuler le problème de la synthèse statistique 
d’un détecteur, optimal du point de vue d’un certain critère de quali- 
té pour une distribution arbitraire des bruits et tel qu’une partie 
de sa structure est réalisée pour une distribution donnée des bruits, 
et l’autre reste invariante et ne dépend pas de la distribution des 
bruits. 


1.2.2. Algorithmes adaptatifs. Pour surmonter l'indétermination 
a priori on utilise largement la méthode d'apprentissage préalable, 
c'est-à-dire l'élaboration, à partir des observations, d’estimations 
des fonctions de répartition inconnues, à condition de disposer 
d’une famille paramétrique de fonctions de répartition. Ces estima- 
tions sont ensuite utilisées à la place des caractéristiques probabi- 
listes inconnues des processus étudiés. 

On distingue l'apprentissage avec maître, permettant d’obtenir 
une suite d'observations étalons, on sait de plus à quelle distribution 
appartient chacun des éléments (échantillon d'apprentissage classi- 
fié), et l'apprentissage sans maître (auto-apprentissage) où les estima- 
tions mentionnées sont formées à partir d'échantillons d’apprentis- 
sage non classifiés. 

Dans certains cas les échantillons d'apprentissage peuvent être 
utilisés pour l'estimation des caractéristiques de l'algorithme (par 
exemple, dans le problème de la détection d’un signal pour l’estima- 
tion d’un seuil ou pour l'estimation de la forme de transformation 
fonctionnelle de certaines statistiques). 

Nous appellerons algorithmes adaptatifs les algorithmes de 
traitement des observations *) utilisant les estimations des fonctions 
de répartition, de leurs paramètres ou d’autres caractéristiques quel- 
conques obtenues par suite de l’apprentissage. 


1.2.3. Critères de qualité des algorithmes de détection des signaux 
dans les conditions d'indétermination paramétrique. Lors de la vé- 
rification d'une hypothèse simple contre l’alternative simple, la 
comparaison du rapport de vraisemblance avec un seuil est un algo- 
rithme assurant une probabilité donnée de fausse alarme et une pro- 


*) Parfois le terme adaptatif est utilisé dans le sens de l’invariance par rap- 
port aux changements de situation. Par adaptation on entend ici la variation des 


paramètres et de la structure du système (algorithme de prise de décision) par 
suite de l'apprentissage. 


3—0165 
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babilité minimale de perte de signal (critère de Neyman-Pearson). 
La forme la plus simple d’une indétermination paramétrique, un 
signal constant pouvant prendre une valeur réelle quelconque, 
correspond à une alternative composite. Comme nous l'avons men- 
tionné dans le second tome, dans la plupart des cas (1.4.7), la règle 
de détection uniformément la plus puissante, minimisant la proba- 
bilité de perte de signal, n’existe pas. Par exemple, lors de la détec- 
tion d’après un échantillon indépendant d’un signal constant en 
présence d’un bruit normal stationnaire additif de moyenne nulle 
et de variance donnée, la comparaison de la somme des valeurs 
échantillonnées avec un seuil donne la règle de détection uniformé- 
ment la plus puissante seulement si l’on suppose que le signe du 
signal ne change pas. Sinon on devra se limiter à la classe de règles 
non biaisées, en introduisant la condition naturelle que la probabilité 
de détection (quelle que soit la valeur du signal) soit non inférieure 
à la probabilité de fausse alarme. 

Dans le cas où l'hypothèse de l’absence de signal est elle aussi 
composite, c'est-à-dire qu'il y a indétermination paramétrique quant 
au bruit, la probabilité de fausse alarme dépend également des para- 
mètres de la distribution des bruits. Par exemple, si la variance d’un 
bruit normal stationnaire additif (de moyenne nulle) est inconnue, 
la probabilité de fausse alarme dépend de la variance du bruit, qui 
est une constante positive arbitraire. Dans ce cas on peut essayer 
de trouver une règle similaire, telle que la probabilité de fausse 
alarme ne dépende pas de la variance ©“ du bruit, c’est-à-dire 


| Un (x10°) dx = «, (1.40) 


X: 


où w, (x | 6“) est la fonction de vraisemblance de l’échantillon du 
bruit et X, le domaine critique correspondant à la décision sur la 
présence du signal. 

Si le domaine critique X, satisfaisant à la condition (1.40) existe, 
on dit qu'il est semblable à l’espace des échantillons, car pour tout 
l’espace des échantillons on a toujours 


| ur, (x102) dx = 1. (1.40°) 


X 


Cette intégrale ne dépend non plus du paramètre inconnu. 

Dans le choix d’une règle statistique de vérification d’une hypo- 
thèse composite contre une alternative composite, on peut parfois 
partir des considérations de son invariance par rapport à un certain 
groupe de transformations des coordonnées de l’espace échantil- 
lonné. Ainsi, par exemple, si la règle utilise les statistiques 
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ÿ == (x; — Lny Ln-1 — Tn) ou ÿ — (x; — m\; 3 Tn— M), où 


elle sera invariante par rapport au groupe des déplacements, mais si 
l’on utilise la statistique 


n 
Y= 2x 
Rk=1 


elle sera invariante par rapport au groupe des rotations. Chaque fois 
où l'on se limite à la classe de règles invariantes par rapport à un 
groupe donné de transformations, le problème de la synthèse optimale 
revient à la détermination de la règle invariante uniformément la 
plus puissante ou de la règle invariante non biaisée uniformément 
la plus puissante. 

Erfin, dans la conception non bayessienne du choix du critère 
de qualité de l’algorithme de détection des signaux, dans les condi- 
tions d’indétermination paramétrique, il y a lieu de mentionner 
également le critère du minimax (1.1.4), bien qu'il soit parfois diffi- 
cile de rechercher les règles du minimax. 

Soulignons que les critères énumérés, à savoir l’absence de biais, 
la similitude, l’invariance, le minimax, se complètent mutuellement. 

Dans certains cas, pour tester une hypothèse composite H selon 
laquelle le paramètre Ÿ appartient au domaine 6,;, contre l’alterna- 
tive X, selon laquelle il appartient au domaine 8}; on utilise le 
critère du maximum de vraisemblance: l’hypothèse H est rejetée si 


sup w,(x|ÿ)> sup uw, (x|Ÿ), (1.41) 
€ 6Kk dE 0H 
où sous une forme plus générale 
sup w RAI na L'n (xl) > (1.41°) 
VE OK 


Si le paramètre Ÿ est n et l’on connaisse ses distributions 
wy (0) pour l'hypothèse et w,x (®) pour l'alternative, le moyennage 
de w, (x | Ÿ) pour chacune de ces distributions permet de réduire 
le problème aux hypothèses composites à un problème de la vérifi- 
cation des hypothèses simples (voir tome II, 1.4.7). 


1.2.4. Critères de qualité des algorithmes de détection des signaux 
dans les conditions d’'indétermination non paramétrique. Nous allons 
maintenant envisager le cas où la famille de fonctions de vraisem- 
blance de l'échantillon est non paramétrique. L’hypothèse H: il 
n’y a pas de signal, et l’alternative X: le signal est présent, sont 
composites. Désignons par W la famille non paramétrique de fonc- 


3% 
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tions de vraisemblance de l'échantillon x = (z;,, . .., z,) et par X4 
le domaine critique de l’espace des échantillons. Lorsque l’échantil- 
lon tombe dans le domaine X, on prend la décision que le signal est 
présent. La caractéristique de travail du détecteur (fonction de 
puissance de la règle du choix de la décision) dans les conditions 
envisagées de l’indétermination non paramétrique est la probabilité 
pour l’échantillon x d’appartenir au domaine X, lorsque la fonction 
de vraisemblance de l’échantillon est égale à une certaine fonction 
Wh (x) appartenant à la famille W. Cette probabilité est égale à la 
probabilité de détection correcte, lorsque w, (x) est la distribution 
du mélange du signal et du bruit, et égale à la probabilité de fausse 
alarme lorsque w, (x) est la distribution du bruit, c’est-à-dire 


P {x € Xu Lara (x), K} = 1 — Bu}, (1.42) 
si w, correspond à l'alternative X et 
P{X E Xa | wu(x), H} = afw,}, (1.42°) 


si w, correspond à l'hypothèse YH. 

Nous allons nous limiter à la classe À, des algorithmes de détec- 
tion consistants non paramétriques pour lesquels la probabilité de 
fausse alarme «& est constante quelles que soient les distributions des 


bruits 
P{xE Xa lu (x)} = @ (1.43) 


pour toutes w, (x) correspondant à l'hypothèse H. Nous allons nous 
donner de plus une certaine valeur B de la probabilité de perte du 
signal. Pour une alternative X donnée, considérons deux suites 
d’algorithmes de détection 6, et Ô7%+ appartenant à la classe À,, 
où {n} et {n*} sont les suites de tailles des échantillons. En vertu de 
la consistance, pour chacune de ces suites d’algorithmes il y aura 
toujours des tailles minimales n;, n} des échantillons telles que 


Büun,, On} PB, Blw,s, On} <B. (1.44) 


La qualité de l'algorithme de détection du signal dans les condi- 
tions d’indétermination non paramétrique es: définie par la notion 
d'efficacité relative. L'algorithme non paramétrique Ôô? de la clas- 
se À, est plus efficace que l'algorithme non paramétrique 6, de la 
même classe, si avec la condition (1.44) on a nf < n,. Autrement 
dit, plus efficace des deux algorithmes non paramétriques maintenant 
constant le niveau des fausses alarmes sera celui pour lequel la 
probabilité donnée de détection correcte est atteinte pour un échan- 
tillon de taille plus réduite. On utilise comme mesure d'efficacité 
le rapport des tailles mentionnées de l'échantillon que l’on appelle 
coefficient d'efficacité relative de l'algorithme Ô%+ par rapport à l’al- 
gorithme 6, 

Pa. 8 (Ôns 8%) — ra/n. (1.45) 
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L’algorithme 6». est plus efficace que 6, si 
Pa, B(Ôns Ônx) >1. 


Supposons que pour des distributions données du bruit et du 
signal avec bruit, l'algorithme 6” est optimal d’après le critère de 
Neyman-Pearson, c’est-à-dire qu’il assure le minimum de probabilité 
de perte du signal pour une probabilité donnée de fausse alarme. Ïl 
est évident que le coefficient d'efficacité relative de l'algorithme 
non paramétrique 0”. par rapport à Ô” pour les distributions données 
sera inférieur à l'unité (ou au moins égal à l'unité). Cependant, pour 
une autre distribution du bruit, l’algorithme non paramétrique ô% 
peut s'avérer être plus efficace que l’algorithme 6°, optimal en pré- 
sence d'un bruit du type donné. 


1.2.5. Critères de qualité des algorithmes adaptatifs. Le critère 
général de qualité des algorithmes adaptatifs est leur convergence 
vers les algorithmes optimaux correspondants à information a priori 
complète lorsque la taille des échantillons d'apprentissage augmente 
indéfiniment. Les algorithmes adaptatifs, en tant que statistiques 
des échantillons d'apprentissage, convergeant en probabilité vers 
les algorithmes optimaux lorsque la taille de l’échantillon d’appren- 
tissage augmente indéfiniment, sont appelés algorithmes adaptatifs 
consistants. La condition suffisante de consistance d’un algorithme 
adaptatif est sa convergence en moyenne quadratique vers l’algo- 
rithme optimal. 

Il est évident que tout algorithme adaptatif ne doit pas être 
consistant, car l'apprentissage sur des échantillons aléatoires (classi- 
fiés ou non) introduit un élément aléatoire supplémentaire. 

Dans les problèmes à indétermination paramétrique, en parti- 
culier dans les problèmes à paramètres perturbateurs, on construit 
des algorithmes adaptatifs à partir des algorithmes optimaux (d’après 
un critère de qualité de Bayes ou autre, en remplaçant les paramètres 
inconnus, comprenant en particulier des seuils inconnus, par leurs 
estimations obtenues à l’aide d'échantillons d’apprentissage *). 
Lorsqu'il s’agit d’une détection ou d’une séparation des signaux en 
présence de paramètres perturbateurs (bruit), on construit des estima- 
tions à l’aide d’un échantillon d'apprentissage du bruit. Dans le 
problème de classification, où il y a lieu de déterminer l'algorithme 
de traitement d'observations qui permette de rapporter chaque 


*) Remarquons que l'algorithme (1.41’) peut être interprété comme une 
variante adaptative prescrivant une comparaison du rapport de vraisemblance 
avec un seuil. En effet, la condition sup w, (x | Ô) est satisfaite par une certaine 
statistique © (x) qui peut être adoptée en qualité d'estimation du paramètre 
inconnu Ÿ. L’inégalite (1.41”) peut alors s’écrire sous la forme 


un (x | Ôk)/wn (x 1 Êr) > C. 
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observation à l’un des ensembles décrit du point de vue probabiliste 
d’une manière incomplète, on utilise l'apprentissage d'après des 
échantillons d’apprentissage classifiés pour chacun des ensembles 
ou l’auto-apprentissage d’après un échantillon d'observations non 
classifié. 

Il y a lieu de noter que le critère de consistance des algorithmes 
adaptatifs ne permet pas de définir d'une manière univoque le type 
des estimations des paramètres inconnus. Souvent on prend pour 
ces estimations les estimations du maximum de vraisemblance 
(voir $ 4.5). 

Considérons à titre d'exemple le problème de la détection du 
signal Às (ft) noye dans un bruit, dont la distribution w (x, ®) dépend 
du paramètre vectoriel (perturbateur) Ÿ. L’algorithme de détection, 
optimal d’après le critère de Neyman-Pearson, préscrit la comparai- 
son du rapport de vraisemblance L (x | Às, 8) avec le seuil C, (#). 
L'algorithme adaptatif correspondant s'obtient en remplaçant l’in- 
connue ® par l'estimation Ÿ. Cet algorithme adaptatif sera consis- 
tant si, lorsque l'estimation @ est consistante, la statistique 
L(x As, )/C4 (Ÿ) converge en probabilité vers L (x | Às, 8)/C, (8) 
lorsque la taille de l'échantillon utilisé pour l'estimation croît 
indéfiniment. 

"Si y est un échantillon d'apprentissage classifié appartenant à la 
distribution du bruit et Ÿ (y) une estimation consistante de Ÿ, la 
condition suffisante de consistance de l'algorithme adaptatif 


L(xlZs, Ÿ)>Ce (Ÿ) (1.46) 


est la continuité de la statistique Z (x | Às, 8)/C, (Ô) en Ô pour 
tous les x. Une autre condition de consistance est que la variance 
de la statistique [ (x | Às, ®) soit limitée. 

En auto-apprentissage, lorsque l'estimation s’effectue d’après 
l'échantillon observé x — (x,, . .., x,), l'algorithme adaptatif peut 
se trouver être non consistant même pour une estimation consistante 
lorsque l'hypothèse Æ est vérifiée, car pour l'alternative cette esti- 
mation peut converger en probabilité vers Ÿ, = Ÿ. 

Dans les problèmes à indétermination non paramétrique les 
algorithmes adaptatifs sont construits à l’aide d’estimations obte- 
nues d’après des échantillons d'apprentissage de fonctions de réparti- 
tion inconnues, de fonctions de corrélation, de spectres énergétiques 
ou d'autres fonctions inconnues. 


1.2.6. Critères de qualité asymptotiques. L'utilisation lors de 
la synthèse statistique dans des conditions d’indétermination a priori 
des critères de qualité envisagés se heurte souvent à des difficultés 
insurmontables. Il n’existe pas à l’heure actuelle de méthodes régu- 
lières suffisamment simples de construction d’algorithmes uniformé- 
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ment les plus puissants non biaisés, semblables, invariants ou à mini- 
max. Le calcul sous forme fermée du coefficient d'efficacité relative, 
dépendant des grandeurs données &, B et de la distribution du signal 
noyé dans le bruit, est dans la plupart des cas impossible à réaliser. 
Les lois de distribution des statistiques définissant les algorithmes 
adaptatifs pour des tailles finies des échantillons d'apprentissage 
et d'observation sont très compliquées ; il est par conséquent impos- 
sible de caractériser dans ces conditions l’algorithme adaptatif par 
une mesure quantitative. 

L'histoire des sciences connaît pas mal d'exemples où les diffi- 
cultés accompagnant certains problèmes ont été surmontées par la 
recherche de solutions asymptotiques. Les théorèmes de Shannon — 
théorèmes fondamentaux de la théorie de l'information — sont, 
comme on sait, asymptotiques. En théorie des probabilités et en 
mathématique statistique les méthodes asymptotiques ont éte utili- 
sées depuis Laplace et Gauss et se trouvent à la base de la loi des 
grands nombres et de nombreux théorèmes limites. Il est naturel 
de faire appel, dans un certain nombre de cas, aux méthodes asympto- 
tiques d'étude des problèmes de la synthèse statistique dans les 
conditions d’indétermination a priori. L'utilisation de ces méthodes 
est basée sur le choix d’un certain système de paramètres du problè- 
me dont la solution, obtenue dans l'hypothèse que ces paramètres 
augmentent indéfiniment ou tendent vers une certaine limite finie, 
définit un algorithme aussi voisin que l’on veut de l’optimal dans 
les conditions d’information a priori complète. Comme, en réalité, 
les algorithmes sont utilisés dans les cas où les paramètres n’atteignent 
pas leur limite, il y a toujours lieu d’étudier la vitesse de convergen- 
ce de l'algorithme asymptotiquement optimal vers l'algorithme 
optimal. 

Rappelons que pour les algorithmes adaptatifs on utilise toujours 
des critères de qualité asymptotiques pour un temps d'apprentissage 
infini (tailles des échantillons d'apprentissage infiniment grandes). 

Dans de nombreux cas, lorsque les statistiques utilisées pour 
prendre des décisions ou trouver des estimations peuvent être pré- 
sentées sous la forme de sommes de grandeurs aléatoires, on arrive 
à formuler les conditions où le théorème de la limite centrale est 
applicable et peut être utilisé pour la recherche des caractéristiques 
asymptotiques des statistiques mentionnées. 


1.2.7. Algorithmes localement optimaux de détection des signaux. 
Considérons une famille paramétrique de fonctions de vraisemblance 
Wn (x | Ÿ) d’un échantillon de taille fixe r du mélange d’un signal 
et d’un bruit avec paramètre énergétique Ÿ (par exemple, le rapport 
de la puissance du signal à la puissance du bruit). Le terme « énergé- 
tique » signifie que pour Ÿ — 0 le signal disparaît et la distribution 
du mélange du signal et du bruit w, (x | Ô) devient la distribution 
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du bruit &, (x | 0) (i.e. on suppose que l'interaction du signal et du 
bruit est telle que pour Ÿ — 0 le bruit ne disparaît pas). 

Nous dirons qu'un algorithme de détection est localement optimal 
(e-optimal) si, pour une probabilité donnée de fausse alarme «, 
il assure une probabilité minimale $ (8) de perte du signal dans un 
certain intervalle 0 << 8 << & des valeurs de 6. Il est évident que 
l’algorithme uniformément le plus puissant est localement optimal, 
la réciproque n'étant pas vraie. 

L'idée d’un algorithme localement optimal est illustrée par la 
figure 1.1 où l’on a représenté, en fonction du rapport signal/bruit, 
la caractéristique de travail de détection (fonction de puissance 


BE) 
1 


Fig. 1.1. Caractéristiques de travail des algorithmes de détection: non biaisé 
uniformément le plus puissant (1), localement optimal (2) et non optimal (3)- 


1 — B (Ô)) dans les cas d’un algorithme uniformément le plus puise 
sant non biaisé (courbe 1), d’un algorithme localement optimal 
(courbe 2) et d’un algorithme non optimal (courbe 3) pour une pro- 
babilité de fausse alarme donnée & — 1 — B (0). Si e est petit, 
l'algorithme localement optimal se rapporte au cas d’un signal 
faible détecté pour un temps d'observation fini (pour une taille 
finie de l'échantillon). Dans ce cas, on exige que les quantités 


æB (8) lo-o coïncident pour les algorithmes optimal Ô% et locale- 


ment optimal 6° et que pour tout autre algorithme on ait 
ô ô 1 
55 B(0, G)l0.0 > 57 B(Ÿ, 6%)l0-0- 


Pour trouver l'algorithme de détection localement optimal on déve- 
loppe en série de Taylor le logarithme du rapport de vraisemblance 
(ou de la moyenne du rapport de vraisemblance, ou d'une fonction- 
nelle du rapport de vraisemblance) au voisinage du point à = 0 
et on se limite au terme linéaire en 8. Le choix d’une décision est 
soumis à la règle suivante : le signal est présent si 


2 In /(xId)lo-0 >, (1.47) 
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où le seuil C est défini par la probabilité donnée de fausse alarme 
ô , 
P {In 2(x|8) bo >C Ho} = a. (1.47') 


Il est facile de généraliser la méthode localement optimale au 
critère de Bayes, en remplaçant la fonction de puissance par la 
valeur du risque conditionnel r (8, 6,). Si ô» est la règle de Bayes, 


la règle de Bayes localement optimale 6!° sera donnée par la condition 
r (0, ôn)=r(0, 6%), 
or (8. ôl°) ___ ôr(®, 6%) 


où ê—0 où ô-0 (1.48) 


et la décision concernant la présence d’un signal est adoptée à par- 
tir de l'inégalité (1.47) où le seuil C est défini par les valeurs données 
des pertes et par la probabilité a priori de présence du signal. 
Cependant, on ne peut négliger les termes d'ordre plus élevé 
dans le développement du logarithme du rapport de vraisemblance 
dans le cas d’un signal faible que si l’échantillon est petit. Mais alors 
la probabilité de détection correcte, même avec des récepteurs opti- 
maux, est du même ordre de grandeur que la probabilité de fausse 
alarme (voir fig. 1.1). Pour que la probabilité de détection correcte 
d’un signal faible soit voisine de l'unité, il y a lieu d'augmenter 
comme il faut la taille de l'échantillon. Il n’est plus possible de 
négliger les termes d'ordre élevé dans le développement du rapport 
de vraisemblance ni en général d'assurer la proximité voulue des 
caractéristiques des algorithmes localement optimal et optimal. 


1.2.8. Algorithmes asymptotiquement optimaux de détection des 
signaux. Mieux adaptés aux problèmes pratiques sont les algori- 
thmes asymptotiquement optimaux de détection des signaux noyés 
dans le bruit, dont les caractéristiques de travail tendent vers des 
caractéristiques rigoureusement optimales lorsque la taille de l’é- 
chantillon augmente indéfiniment et le rapport signal/bruit tend 
vers zéro *). 

L'idée centrale de la théorie des algorithmes asymptotiquement 
optimaux de détection des signaux est dans la recherche d’une sta- 
tistique asymptotiquement suffisante dont la distribution converge 
vers la loi normale lorsque la taille xz de l'échantillon augmente 
indéfiniment (7 —+ co) et l’amplitude du signal À s ({) tend vers zéro 
(À 0). On a toute raison d'espérer que si l’on substitue cette sta- 


*) Le terme « algorithme asymptotiquement optimal de détection (de 
discrimination) des signaux » sera entendu partout dans cet ouvrage seulement 
dans ce sens. Dans la littérature on attribue un sens plus large à l'optimum asymp- 
totique. Par exemple, on considère comme asymptotiquement optimaux tous 
les algorithmes adaptatifs consistants. 
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tistique asymptotiquement suffisante dans la règle optimale du 
choix d’une décision donnée pour les distributions normales (1.1.9), 
on obtient un algorithme asymptotiquement optimal de détection 
des signaux noyés dans des bruits d’une large classe de distributions, 
algorithme qui possède une invariance partielle en ce sens que la 
distribution des bruits influera seulement sur le dispositif de for- 
mation d’une statistique suffisante. L'utilisation d’un algorithme 
asymptotiquement optimal dans le cas « sublimite » n’est justifiée 
que lorsque sa vitesse de convergence vers l'algorithme optimal est 
suffisamment grande. Ne cédant pas en qualité à des algorithmes 
construits à partir d’autres principes, les algorithmes asymptoti- 
quement optimaux admettent une structure de systèmes de réalisa- 
tion moins compliquée. 

On peut s'attendre à ce que cette statistique normale et asympto- 
tiquement suffisante existe pour les modèles de signaux et de bruits 
pour lesquels le rapport de vraisemblance admet une factorisation 
et donc le logarithme du rapport de vraisemblance est une somme 
de variables aléatoires. 

Nous allons maintenant donner une définition rigoureuse de 
l’optimum asymptotique. Convenons de considérer comme optimal 
un algorithme de détection ô° qui, pour une probabilité donnée de 
fausse alarme «, et pour une taille donnée n de l'échantillon, assure 
une probabilité minimale f, (ô°, À,) de perte du signal À;,s (t) 
{critère de Neyman-Pearson). 

Soit À, - -., À Une suite d’amplitudes d’un signal convergeant 
d'une certaine manière vers zéro lorsque la taille r de l'échantillon 
augmente indéfiniment. Considérons la suite {6,} d’algorithmes de 
détection des signaux d’amplitudes À,. 

Désignons par B, (6,, À,) la probabilité de perte du signal corres- 
pondant à 6, et À,. Nous dirons que la suite des algorithmes {6°} est 
asymptotiquement optimale *) si pour toute autre suite d’algorithmes 
{6,} on a la relation 


lim [Ba (Ôn, hn) —BPn ( a Àn)] Z>0 (1 .49) 
n +0 
pour un niveau donné de fausse alarme &. Ce niveau de fausse alarme 
doit également être pris en sens asymptotique, i.e. 


lim æ&,(ô,)=lim a, (ôn)=«. (1.49) 


n— 00 


La vitesse de convergence de la suite {À,} vers zéro pour r —+ oo 
n’est pas arbitraire. Il y a lieu de poser 


A = yVn, (1.50) 


; *) Si Pa (6., À.) — Bn (ôn Ân) > 0 pour »# quelconque, l'algorithme &£ 
est optimal suivant le critère de Neyman-Pearson pour la suite À. 
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où y est une constante quelconque positive (bornée) proportionnelle 
au rapport signal/bruit. Une telle décroissance de l’amplitude du 
signal pour r + signifie que le rapport signal/bruit est positif 
et borné (après le traitement du signal) pour un échantillon de taille 
quelconque. Lorsque l’amplitude du signal tend vers zéro plus rapi- 
dement, le rapport signal/bruit tend également vers zéro; pour une 
convergence moins rapide de l’amplitude du signal vers zéro le rap- 
port signal/bruit tend vers l'infini. Dans le premier cas la probabi- 
lité de détection correcte tend vers zéro, et dans le second vers l’uni- 
té. La restriction adoptée concernant le caractère des variations d’am- 
plitude nous garantit contre la singularité *). 

Ainsi, pour un algorithme asymptotiquement optimal sous la 
condition (1.50) il existe une limite différente de l'unité et de zéro 


lim 8, (6%, v/Vn)=8(6", 1). 1.51) 


0O<B(8", y) <1. (1.51’) 


L’algorithme limite Ô2° utilise la statistique normée limite aux 
paramètres de distribution finis dépendant de Ÿ. 

Appuyons les propositions avancées par un exemple simple. On 
sait (voir tome ÎI, page 41) que lors de la détection d’un signal 
constant positif a noyé dans un bruit normal additif stationnaire 
indépendant de moyenne nulle et de variance 0°, une comparaison 
de la somme normée 


n 
| T; 


vVn à 6 
Vu _ 


d'observations indépendantes zx; avec le seuil C donne une probabili- 
té minimale de perte du signal égale à **) 


B= F (re — y), (1.51”) 
si le seuil C est lié à la probabilité donnée «& de fausse alarme par la 
relation 

CZ; 


*) Lors de la détection du signal Às (t) noyé dans un bruit blanc de para- 
ruètre d® (un rapport signal/bruit à la sortie) dans (1.29) est égal à (voir (1.28)) 


1 
NoFTo 


T T 
a+ | s2(t) dt =}?FT | s®(t) dt =n (s/bhent — Ar =Y:. 
0 
0 0 


Pour d +0, f —+1 et pour d oo, B —+0. 
: LS 
**) La statistique —— © z;/0 suit une loi normale de variance unité et de 
n 


i=1 
moyenne nulle pour l'hypothèse H et égale à y pour l'alternative X. 
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où zx, est le quantile de la loi normale; F (x) l’intégrale de Laplace 


et y — (a/o) Vn. Ici a/o est le rapport signal/bruit à l'entrée du 
détecteur, la grandeur y est proportionnelle au rapport signal/bruit 
après traitement optimal de r observations indépendantes. Si 0 < 
< als << ©, alors pour rz — co la grandeur y croît indéfiniment et 
B — 0 comme il se doit, vu la consistance de l’algorithme de détec- 
tion. Sin est fini et a/o —+0, on a y —-0 et par conséquent z:_8 ze, 
d’où B —>1 — «. Pour éviter les singularités relevées (6 — 0 ou 
B — 1 — a), il y a lieu de supposer que le rapport signal/bruit a/o 


à l'entrée décroît comme y/V n, 0 << y << . Dans ce cas l’équation 


Fig. 1.2. Courbes de probabilité de détection correcte pour deux algorithmes: 
optimal suivant le critère de Neyman-Pearson ( ) et asymptotiquement 
optimal (— — —). 


(1.51”) est celle de la caractéristique de travail limite de l'algorithme 
optimal de détection d’un signal constant noyé dans un bruit normal 
additif. 

Pour des échantillons de tailles importantes la caractéristique 
de l'algorithme asymptotiquement optimal de détection diffère peu 
de la caractéristique de l'algorithme optimal au sens du critère de 
Neyman-Pearson (fig. 1.2). Pour une probabilité de fausse alarme a 
donnée, les grandeurs n°, À, et n°”, Àn- (n” > n’, Àn- < À,:) sont 
choisies de telle sorte que la probabilité 1 — B de détection correcte 
reste constante pour l'algorithme de Neyman-Pearson. Les quantités 


[BA (6x, v/Vr)—B|, 
[æn (ôn, v/Vn)—a| 


tendent vers zéro lorsque À, —+ 0, nr oo, À, Vn—y>> 0. 
Remarquons qu’en réalité l’amplitude du signal peut ne pas 
satisfaire à la condition (1.50). Mais cela n'empêche pas d'utiliser 
dans le cas « sublimite » un algorithme de détection asymptotique- 
ment optimal dont la caractéristique de travail détermine la borne 
supérieure de la probabilité de détection correcte pour À = n°", v> 
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> 2 et la borne inférieure de cette probabilité pour 0 < v < si 
{c'est-à-dire lorsque l’algorithme de détection est consistant). 


1.2.9. Coefficient d'efficacité asymptotique relative. Etablis- 
sons maintenant la mesure quantitative de l’optimum asymptotique. 
Comme nous l’avons noté dans 1.2.4, la qualité des algorithmes non: 
paramétriques de détection est jugée d’après le coefficient d'’effica- 
cité relative (1.45) qui montre combien de fois le nombre d’observa- 
tions que nécessite l’algorithme en question est plus élevé compara- 
tivement à un autre algorithme, pour des probabilités d'erreurs de 
première et de seconde espèce données. 

Considérons de nouveau la classe A, d'algorithmes de détection 
consistants non paramétriques conservant constante la valeur «& 


de la probabilité de fausse alarme. Soient 6,, et ô,+ deux algorith- 


Mg 
mes de la classe A,, et B (wa, Ôn,): B 5,2) les probabilités 


de perte du signal pour une distribution donnée du signal et du bruit. 
Prenons ces probabilités égales à une probabilité de perte du signal 


donnée f, : 
Pa, (Un, , Ôn,) — no ps (Un, ôn*) — . Bo- (1 .J2) 


Pour ny oo et nf — oo lorsque # co on peut à partir de 
(1.52) trouver la limite *) 


ps, (6, 6°) = lim (nx/nx) (1.53) 
Rk->00 


que l’on appelle coefficient d'efficacité asymptotique relative de l'al- 
gorithme Ô* par rapport à l’algorithme 6. Souvent cette limite ne 
dépend pas de & ni de f,. Remarquons, cependant, que par de 
de la consistance des algorithmes envisagés, les quantités $ (w,,, On) 


et $ (w,s, ue) tendront vers zéro pour À — co pour une alternative 
è 


K donnée (distributiôn du signal et du bruit) différente de l’hypothè- 
se À (distribution du bruit). Pour que la valeur de la probabilité 
de perte du signal reste constante (égale à 4) lorsque l’on passe 
à la limite, il faut que l'alternative et l'hypothèse se rapprochent. 
Ainsi, tout comme la notion d’optimum asymptotique, celle de critè- 
re asymptotique de qualité de détection d’un signal utilisant le 
coefficient d'efficacité asymptotique relative implique, afin d'éviter 
une singularité, que le rapport signal/bruit soit borné et différent 
de zéro lorsque la taille de l'échantillon augmente indéfiniment. 

En vertu de la définition du coefficient d'efficacité asymptotique 
relative, pour trois algorithmes 6,, 6, Ô* on a la relation 


PB (Ô:, Ô*) PB (Ô*, Ô:) — PB (1, Ô2)- (1.53") 
*) Ô et Ô* désignent ici des algorithmes limites (cf. (1.51)). 
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1.2.10. Algorithmes de détection des signaux asymptotiquement 
les plus efficaces. Soient 6,, et + deux suites d'algorithmes de 


détection tels que les limites des probabilités de fausse alarme pour 
Nr —+00, nh —> 0, lorsque À —> 00, coïncident : 


lim an, (ôn,) = lim @,e (ôn*) = &, (1.54) 


et soit À, une suite convergeant vers zéro pour À —+ oc et telle que 
les limites des probabilités de perte du signal soient 


lim fn, (ônys Âx)= lim Be (ôn$, An)=B, api. (1.55) 


Introduisons le coefficient d’efficacité asymptotique relative 
#S 
au niveau f de la suite d’algorithmes 6,# par rapport à la suite 6,, : 


ps (8, 6*) = lim (ny/nt). (1.56) 


à 
Nous dirons que la suite d'algorithmes 6,* est asymptotiquement 


la plus efficace si pour ôn, quelconque et une valeur donnée de fon a 


pe (6, Ô*) > 1. (1.57) 

La suite ô,s est dite uniformément asymptotiquement la plus effica- 
ce si l'égalité (1.57) est vérifiée pour $ quelconque. 

Toute règle admissible *) de choix d’une décision est asympto- 
tiquement la plus efficace. On sait que, sous certaines restrictions, 
les règles admissibles appartiennent aux classes complètes **) de 
règles de Bayes et de règles basées sur le critère de Neyman-Pearson. 
Cependant, à la différence des règles optimales de Bayes et des règles 
optimales suivant le critère de Neyman-Pearson, les règles asympto- 
tiquement les plus efficaces ne sont pas déterminées d’une manière 
univoque. 

Soient 6, et 6 deux algorithmes réalisant une comparaison aux 
seuils des statistiques y, (x) et yA (x), et soit 6; l'algorithme asympto- 
tiquement le plus efficace. L’algorithme 6, sera alors également 
asymptotiquement le plus efficace si seulement | y, — y, | 0 en 
probabilité pour nr —- 00. 


*) Une règle ô* de choix d'une décision est admissible s’il n'existe pas d’au- 
tre règle Ô qui soit uniformément meilleure que 6*, c'est-à-dire qu'il n'existe 
pas de 6 satisfaisant aux conditions r (w, 6) < r (w, ô*) (pour toutes les lois de 
répartition & € W\r (w, Ô) < r (w, Ô*) (ne serait-ce que pour une seule w € W), 
où r (-) est la fonction de risque. 

**) Une classe C de règles de choix d’une décision est complète si pour tout 
Ô é C on peut trouver un ô* € C uniformément meilleur que ë, c'est-à-dire que 
dans une classe complète il y aura toujours une décision qui soit meilleure que 
toute cécision n'appartenant pas à cette classe. 
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Cette particularité permet de rechercher les algorithmes asympto- 
tiquement les plus efficaces doués des propriétés désirées, par exemple, 
ayant une structure plus simple que les algorithmes optimaux ou 
possédant certaines propriétés non paramétriques. Il est évident 
que les différents algorithmes asymptotiquement les plus efficaces 
peuvent différer par la vitesse de convergence des algorithmes 
« sublimite » vers les algorithmes limite et en ce sens un algorithme 
asymptotiquement le plus efficace sera meilleur que les autres. 


1.2.11. Calcul du coefficient d'efficacité asymptotique relative. 
La définition (1.56) ne donne pas de méthode de calcul du coeffi- 
cient d'efficacité asymptotique relative. Cependant, on peut montrer 
que si les limites finies existent (ce qui a lieu pour les algorithmes 
asymptotiquement optimaux) 


lim Ba (ôn, v/Vr)=B(8, v), (1.58) 
lim 8, (8%, v°/Vnr)=B(6*, v°), (1.59) 


le coefficient d'efficacité relative asymptotique de l'algorithme Ô* 
par rapport à Ô est égal à 


ps, (6, Ô*) —(Yol vs)? (1.60) 
où Y, et yo sont les racines minimales des équations 
B (6, v) = Bo, B (6*, +*) — Po- (1.61) 


La formule (1.60) est intuitivement claire. En effet, pour B, 
donné, il existe des suites n, et nÀ croissantes indéfiniment lorsque 
k —+ oo, pour lesquelles À, — 0 lorsque À — , et l’on a 


lim Àk V Nr —= Vo: lim hn Vi —= Yo: (1.62) 
R—+00 R—00 


d'où l’on déduit (1.60) à l’aide de (1.53). 

En vertu de (1.49), (1.57) et (1.60), un algorithme asymptotique- 
ment optimal est également asymptotiquement le plus efficace 
(fig. 1.3). Ceci permet d'utiliser le coefficient d'efficacité asympto- 
tique relative comme une mesure quantitative de l’optimalité 
asymptotique. 


1.2.12. Coefficient d'efficacité asymptotique relative des algo- 
rithmes unilatéraux utilisant les statistiques asymptotiquement nor- 
males. Nous allons envisager deux algorithmes consistants de deé- 
tection d’un signal noyé dans des bruits: on prend la décision que 
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le signal est présent si 


y(x)>C1 (algorithme 6;), (1.63) 
y®’'(x)>C> (algorithme 6). (1.63) 


€ 


Supposons que les statistiques y” (x) et y# (x) soient asympto- 
tiquement normales *). Dans ce cas le coefficient d'efficacité rela- 
tive asymptotique d’un algorithme par rapport à un autre peut être 


l-B 


do do d 


Fig. 1.3. Sur la définition du coefficient d'efficacité asymptotique relative. 


présenté sous forme explicite par les caractéristiques probabilistes 
des processus observés. 

Supposons comme précédemment que l'hypothèse H signifie 
l'absence et l'alternative X la présence du signal. Introduisons 
les désignations suivantes: 


mi {y (x)IH}= at, mi{yD (x)IA}= aûr, (1.64) 
LM O0 (AN = où), LM {y (x)|KN 2 = 06), i—1; 2, (1.64) 


et supposons que 
lim = 1. (1.65) 


Si dans les algorithmes Ô, et Ô. les variables aléatoires y{ (x) 
et y’ (x) sont normales, pour une probabilité de fausse alarme 
donnée « les seuils C,; et C, seront égaux (voir tome II, p. 44) 


Ci=a,+ofte, i=1; 2, (1.66) 


*) Dans les chapitres qui suivent, nous envisagerons des statistiques 
Yn (*) qui seront asymptotiquement normales en vertu du théorème de la limite 
centrale. Comme on sait, ce théorème se formule pour des statistiques normées 
comme suit: [vs (x) — m1 {yn (X)} M2 {un (x)}/2. Nous utiliserons souvent 
le terme « statistique asymptotiquement normale » pour des statistiques non 
normées, en nous basant sur le fait que la distribution d’une somme de grandeurs 
aléatoires indépendantes, pour un grand nombre de composantes, peut être ap- 


roximée par une loi normale dont la moyenne et la variance dépendent du nom- 
re de composantes. 
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et la probabilité de détection correcte 1 — f est liée à la probabilité 
de fausse alarme par la relation 


j) :) 
L CH aU x — a0x 1:02 1.67 
ART + 1=1, à. ( ; Î) 
nK nK 


Ts Z1-p Sont ici les quantiles de la loi normale. 


Pour nr ——, en vertu de (1.67) et compte tenu de (1.65) on 
obtient la caractéristique de travail limite 


Ti-p— Ta — À, (1 .68) 
où 
(à) __ ti) 
À lin TE ue (1.68') 
Rs NT 


Si (comme c'est souvent le cas) la variance de la statistique y, (x) 
croit proportionnellement à la taille nr de l'échantillon, alors pour 
que la grandeur À; soit finie et différente de zéro il faut que la diffé- 
rence aÿx—a%} augmente comme V7. 

Supposons que la distribution du mélange signal — bruit est 
caractérisée par un paramètre positif ÔŸ (amplitude du signal), et 
qu'à la distribution du bruit correspond Ÿ — 0. 

Introduisons les désignations 


ax = ani (0), af}, = ani (0). 
Pour des Ÿ petits on a alors 
at) — a), = ani (8) — ani (0) == Va;i (0) + o (8), (1.69) 
où 
ani (0) = _ Ani (Ÿ)|0-0 À 0. 
En posant y — 9 Vn, on obtient à partir de (1.68) et (1.69) 


À = Ye, (1.70) 
où a 
e— lim an; (0)/[ox V nl. (1.70) 


On appelle souvent e; mesure de l'efficacité de l'algorithme 6.. 
(1.70) et (1.68) conduisent à une équation linéaire par rapport à y 


Ti-B = Ta — VEi, (1.11) 


dont l'unique solution est 
Ta — Ti1-p 


V= ———. (1.71°) 


Ei 


Pour des probabilités d’erreurs données & et fi, on déduit de 
(1.60) et (1.71”) l'expression suivante pour le coefficient d'efficacité 
4—0165 
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relative de l’algorithme 6, par rapport à l’algorithme ô.: 


fl fr) 9 
p= (+) = (+) | (1.72) 
où &, et e. sont définis par (1.70°). 
Si les r premières dérivées de a,; (Ÿ) par rapport à 8 pour 8 —0 
s’annulent, il y a lieu de substituer dans (1.70”) la grandeur a!/;" (0). 
1.2.13. Coefficient d'efficacité asymptotique relative des algorith- 
mes bilatéraux utilisant des statistiques asymptotiquement normales. 
Considérons les algorithmes de détection bilatéraux consistants 
suivants: on prend Ja décision que le signal est présent si 


lyn’ (x)IZC1 (algorithme 6;), (1.73) 
lyr (x)|Z€C2 (algorithme 6;). (1.13) 


Conservant l'hypothèse que les statistiques y! (x) et y? (x) 
sont asymptotiquement normales et les désignations (1.64) et (1.64°) 
nous obtenons pour & et 5 donnés les expressions suivantes des carac- 
téristiques de travail des algorithmes bilatéraux (voir tome Il, 
(1.132)) 

B= F(ray2 — Yier) — F(— Ta 2 — Yet), (1.14) 


DE (zay2 — Val) — F(— Za;2 — Vre2). (1.747) 


En égalant les seconds membres des égalités (1.74) et (1.74°) 
et compte tenu de la monotonie des fonctions égalées, nous nous 
convainquons que la formule (1.72) reste vraie pour des algorithmes 
de détection bilatéraux. 


1.2.14. Mesure quantitative de stabilité de l'algorithme asympto- 
tiquement optimal de détection des signaux. En vue des applications 
pratiques des algorithmes asymptotiquement optimaux de détection 
des signaux, il est tout naturel de se poser la question de savoir 
combien les caractéristiques de détection sont sensibles aux varia- 
tions de la distribution des probabilités des bruits par rapport à la 
distribution pour laquelle l'algorithme utilisé est asymptotiquement 
optimal. Nous appellerons stabilité la propriété d’un détecteur de 
conserver ses Caractéristiques dans certaines limites de variation 
des bruits. 

Soit & la distribution d’un bruit par rapport auquel l’algorithme 
Ô* (uw) réalisé dans le détecteur est asymptotiquement optimal, et 
soit u la distribution du bruit lorsque les conditions ont changé. 
Nous allons adopter pour mesure de stabilité le coefficient p d’effi- 
cacité relative asymptotique de l’algorithme 6 (w), utilisé pour 
un bruit « étranger » de distribution u, par rapport à l’algorithme 
Ô* (u) asymptotiquement optimal pour ce bruit « étranger ». 

Supposons que les algorithmes 6 (w) et ô* (u) réalisent une 
comparaison avec un seuil de statistiques asymptotiquement norma- 
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les et que les paramètres (moyenne et variance) de la distribution 
limite normale pour l'hypothèse Æ (il n’y a pas de signal) et pour 
l'alternative Æ (le signal est présent) sont 

algorithme ôu(w) ô*(u) 

hypothèse H 0, 07 0, 0? 

alternative À  Ya;,o° ya, o°. 

Pour une probabilité donnée de fausse alarme «, les probabilités 

de perte du signal sont égales à 


Bi (Gt, v)=F (ze) (1.75) 
lorsque l’on utilise l’algorithme Ô# (w), et à 
B1(8*, VW =F (re) (1.75') 


lorsque l’on utilise l'algorithme Ô* (uv), x, étant le quantile de la 
loi normale. En substituant (1.75) et (1.75”) dans (1.61), on trouve y, 
et V0 
1 o ‘ O! =. 
Yo = (Ta — 1-8) ee Vo = (ra —zi-8) Te, (1.76) 


qui sont les racines uniques des équations (1.61) en vertu de la mono- 
tonie de l’intégrale de Laplace F (2). 
En substituant (1.76) dans (1.60) on trouve le coefficient d’effi- 
cacité relative asymptotique de l’algorithme ô/(w) par rapport à Ô*(u) 
p — (a,/0,)° (o/a). (1.77) 
Remarquons que les rapports a/c et a;/6, peuvent être considérés 
comme les mesures des « distances » entre les distributions limites 
pour l'hypothèse (il n’y a pas de signal) et l’alternative (le signal 
est présent) ou comme le rapport « signal/bruit ». 


1.2.15. Résumé. La classification des problèmes de la synthèse 
dans les conditions d’indétermination a priori que nous avons es- 
quissée dans ce paragraphe pour différents critères de qualité permet 
de distinguer les méthodes essentielles suivantes utilisées pour sur- 
monter l’indétermination a priori: 1) les méthodes de la statistique 
non paramétrique, 2) les méthodes asymptotiques, 3) les méthodes 
d'adaptation utilisant des échantillons d'apprentissage, 4) les métho- 
des de la statistique paramétrique s'appuyant sur les principes 
d’invariance, de similitude et du minimax. 

Nous passons maintenant à une caractéristique détaillée de ces 
méthodes. Le choix des matières exposées, comprenant des exemples 
d'application pratique, reflète le côté radiotechnique spécifique des 
problèmes de la détection et de la séparation des signaux noyés dans 
des bruits. 

La formalisation des résultats généraux permet de les utiliser 
dans d’autres domaines de la science et de la technique. 
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CHAPITRE 2 


MÉTHODES NON PARAMÉTRIQUES 
DE SYNTHÈSE STATISTIQUE 


2.1. CRITÈRES DE CONFORMITÉ 


2.1.1. Vérification de l'hypothèse sur la forme de la fonction de 
répartition. Supposons que l'on ait un échantillon x — (x;,... 
... Zn) d'observations indépendantes appartenant à une distribu- 
tion inconnue G, (x). Il y a lieu de tester l’hypothèse Æ suivant 
laquelle G, (x) coïncide avec une fonction de répartition continue 
F, (x) donnée (hypothétique), contre l’alternative X que G, (x) 
=£ F, (x). Parfois on envisage les alternatives unilatérales X*: 
Æ, (@) > G (x) ou KT: F, (x) << G, (x). 

La solution de ces problèmes est basée sur l’utilisation d’une 
fonction de répartition empirique (voir tome ÎI, 2.1.1) 


n 
1 

F} (z, x )) Eat” D u (xz— 1), (2.1) 

k—1 
où xt? — (x), ..., x) est un échantillon ordonné (vecteur des 
statistiques d'ordre) et u (z) la fonction du saut unitaire égale à 
n 2< 0, 

A 

(8) 1, z22>0. 
Si l’hypothèse FH est vraie, la fonction de répartition empirique 
converge en probabilité lors d’une augmentation illimitée de la 


taille x de l'échantillon vers la fonction hypothétique, i.e. pour 
n —o la suite des variables aléatoires 


,=suplFi (2) Ft (re, xO)] (2.2) 


(2.1°) 


converge en probabilité vers zéro. 

Pour un échantillon de taille finie les fonctions de répartition 
empirique-et hypothétique différerons l'une de l’autre. Introduisons 
la mesure numérique de la distinction (critère de conformité) d, (F7, F;) 
des fonctions de répartition empirique F1 (x, x! }) et hypothétique 
F, (x). Dans nos décisions nous allons nous conformer à la règle 
suivante: si la statistique d, (F?, F,) dépasse un certain seuil, 
l'hypothèse Æ est rejetée. La valeur de ce seuil est trouvée comme 
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d'habitude pour une probabilité donnée de faux rejet de l'hypothèse, 
c'est-à-dire à partir de la relation 


P{d,(F*, F)> delH}= a. (2.3) 


Si la distribution de la statistique d, (F%, F;) ne dépend pas de 
l'hypothèse H, i.e. de la forme de la distribution F, (x), la règle de 
rejet de l'hypothèse pour 


du (Ft, F)> da (2.4) 


est non paramétrique. Conformément à la terminologie de 1.2.4, 
l'algorithme (2.4) appartient à la classe A, des algorithmes de dé- 
tection consistants non paramétriques si F, (x) est une famille de 
distributions du bruit non paramétrique. 

Comme dans le cas de la vérification des hypothèses concernant 
les paramètres d’une distribution de forme donnée, l’hypothèse H 
peut être simple ou composite. L'hypothèse A: G; (x) = F, (x) est 
simple si la fonction F, (x) est entièrement déterminée. Par exemple, 
avancer que les observations appartiennent à une distribution norma- 
le à valeur moyenne et variance connues c'est faire une hypothèse 
simple. Une hypothèse H: G,(x) — F;, (x; Ÿ) est composite si la 
fonction F, est donnée aux paramètres inconnus Ÿ — (Ô,, ..., ®,), 
ŸÊEO,m > 1, près. Par exemple, l'hypothèse sur la normalité des 
observations lorsque la moyenne et la variance sont inconnues est 
une hypothèse composite. 


2.1.2. Critères de conformité. Considérons la classe des critères 
de conformité dépendant de la différence des fonctions de répartition 
empirique Fi et hypothétique F, 


da (FF, F)= {FT (x, x0)) — Fi (x)}. (2.5) 


Si F, (x) est continue, pour l’hypothèse Æ la fonction de réparti- 
tion de la statistique (2.5) ne dépend pas de F; (x), i.e. le critère 
de conformité est dans ce cas non paramétrique. 

Pour démontrer que le critère (2.5) est non paramétrique nous 
avons besoin du résultat suivant de la théorie des probabilités. 
Supposons que les variables aléatoires n et E sont liées par la rela- 
tion fonctionnelle n — F, (£). Supposons de plus que F, (x) est con- 
tinue et représente la fonction de répartition de la variable aléatoire 
E. La variable aléatoire n est alors répartie uniformément sur l’in- 
tervalle (0,1). Si x, ..., x, est un échantillon appartenant à la 
distribution continue F, (x), les variables aléatoires y, — F, (x;), 
À — 1, ..., n, forment un échantillon de la distribution uniforme 


D, (y) = y, 0 K y < 1. (2.6) 
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La fonction de répartition empirique 
k 
DEF (y, =, y y<ylri, (2.7) 


où vt? — (y, ..., y) est le vecteur des statistiques d’ordre de 
l'échantillon Y — (Yr, . 


Yn)- 
En vertu de (2.6) et 2. 7 pou O0<y<1 
D (y)— D (y, y) =y— D (y, y) = 
= Fi(z)— D (Fi(x), Fi (xXO)]= Fi(z)— F7 (x, xO)). 


Par conséquent, pour l'hypothèse # selon laquelle l'échantillon 
appartient à la distribution continue F, (x), la distribution de la 
fonctionnelle de la différence entre la fonction de répartition empi- 
rique et celle hypothétique coïncide avec la distribution de la fonc- 
tionnelle de la différence mentionnée pour le cas où l’échantillon 
appartient à une distribution uniforme sur l'intervalle (0,1). 
Autrement dit, la distribution de la fonctionnelle 1 {Æ% (x, x'') — 
— F,(x)} ne dépend pas de la forme de F, (x). 


2.1.3. Critères de conformité de Kolmogorov et de Smirnov. 
En vertu du critère de Kolmogorov, la mesure de la différence des 
distributions empirique et hypothétique est donnée par la statis- 
tique (voir (2.2)) 


da =sup|Fi(x)— Ft (x, xO)], (2.8) 


i.e. la borne supérieure, sur tous les x, des modules de la différence 
des distributions mentionnées. 

Une propriété importante du critère de Kolmogorov est qu'il 
est non paramétrique, c’est-à-dire que si la fonction de répartition 
F, est continue, la fonction de répartition de la statistique (2.5) 
ne dépend pas de F, (x). Cette propriété découle directement du 
résultat formulé dans 2.1.2 car 


d,=suplF,(x)— FT (x, x = suplh: ()— D (y, 30), 


c’est-à-dire que la distribution de la statistique (2.8) coïncide avec 
celle de la statistique sup [®, (y) — ®f (y, y'?)]| qui ne dépend pas 


V 
de la distribution F, (x). 

L'expression de la fonction de répartition de la statistique (2.8) 
pour un échantillon de taille finie est très compliquée (voir par 
exemple [4.7]). A. Kolmogorov a trouvé une expression asymptoti- 
que suffisamment simple pour cette fonction. Si l'hypothèse Æ7 est 
vraie alors, pour x — et sous l'hypothèse supplémentaire de 
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continuité de F, (x) la fonction de répartition *) de la grandeur 
Vn d, s'approche asymptotiquement de 


PIVnd<z|-k(z= D (—1Ye-2s, 220. (2.9) 
R=——00 
La fonction k (z) peut s’écrire comme suit: 
k(z)=1—2 D (—1) 7 'e-2a, 20. (2.10) 
k=1 


D'une autre part, en écrivant k (z) sous la forme 


k (z) = Ÿ e—22h}zs » e—2(2h+1)223 


R=——0o0 R=— — 00 


et en utilisant la formule de sommation de Poisson 


S k@= Ÿ Ÿ k (2) ezxikx dx, 


k= — © R=- 00 — oo 


on peut écrire cette fonction comme suit: 
En < 2 (2k—1)2 
k (= S exp {EC (2.11) 
k=1 


I1 est commode d'utiliser (2.10) pour z >> 1 et (2.11) pour z & 1. 
Si « est la probabilité donnée de rejet injuste de l'hypothèse 
(niveau significatif) on obtient à partir de (2.10) 


P{d,>de}=P{d,Vn>daVn}-1—k(d&Vnr)= 
2 D (1) exp(— 2H dn)= a 249 


ou sous une autre forme, en utilisant (2.11), on a 


P{d, > du) EVE a {— EE} = œ. (2.13) 


8ndz 


La série dans (2.12) converge rapidement et souvent en première 
approximation on peut se limiter au premier terme 


2e7*"a = œ (2.14) 
*) La fonction de répartition envisagée peut s’écrire comme suit [3]: 


P{Vadn <:}= ÿ cnner 2e [4 = +0 (+). 


k--— © 
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ou 


da=(imi). (2.15) 


La règle de vérification de l'hypothèse Æ contre l'alternative 
bilatérale X est la suivante: si, pour l'échantillon observé et pour 
une valeur donnée de æ&, on a 


d, =supl|F (z)— FT (x, XI] > d, (2.16) 


l'hypothèse selon laquelle l'échantillon a été extrait de la distribu- 
tion F, (x) est rejetée. Pour des tailles importantes des échantillons 
(nr => 50) le seuil d, est donne par l’une des formules (2.12) à (2.15). 
Si l’on construit deux courbes en escalier y — F? (x, x'?) + d, et 
y = F$(z, x!) — d,, on peut affirmer avec un certain degré de 
certitude déterminé par le niveau significatif donné que la fonction 
de répartition hypothétique F, (x) se trouve à l’intérieur de la bande 
limitée par les courbes mentionnées (limites de confiance). 

On trouvera dans [4] une table des valeurs des seuils d, pour 
æ — 0,01 et &« — 0,05, pour les valeurs de n allant de 5 à 100, les 
valeurs exactes étant calculées à partir de la distribution d, pour 
des n finis, et les valeurs asymptotiques à l’aide de la fonction k (z). 
Cette table montre que pour & > 0,01 et n > 50 l'erreur relative 
de la valeur asymptotique par rapport à la valeur exacte ne dépasse 
pas 2 %. On peut trouver des tables plus complètes dans [6]. 

Pour l'alternative unilatérale K*: F,(x) > F (x, x'?) on uti- 
lise le critère unilatéral de Smirnov 


d' =sup|Fi(r)—F? (x, X0))}, (2.17) 


et la règle de vérification de l'hypothèse 77 contre X* prescrit à reje- 
ter l'hypothèse, pour un niveau significatif donné @’, si d' > de, 
de plus 

limPiVndi>z)=e-:: (2.18) 


To 


et par conséquent pour nr —+ oo 
_-9nd2, 
ame "da, (2.18') 


Les limites de confiance sont données par les courbes en escalier 
y = FT (x, X''} y — FT (x, x'?) + dar. 

Pour l'alternative unilatérale K-: F;(z) << F, (x, x'') on 
utilise le critère unilatéral suivant 


d,=inf{fFi(z)— FT (zx, x0))]. (2.19) 
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Il évident que P {d, > d,:}= «’ entraîne P {d, << — d,:}= «' et 


a=/l{d,>d}=P{d>de)U(d, <—du)}< 20. 


Dans certains cas la fonction de répartition hypothétique peut 
dépendre du paramètre inconnu ® (scalaire ou vectoriel). On vérifie 
alors l'hypothèse composite H selon laquelle l’échantillon observé 
appartient à la distribution F, (x; 8). Dans le cas envisagé au lieu 
de (2.5) on peut utiliser la statistique 


d, = suplF (x, xXC))— Fi(x, Ô)|, (2.20) 


où Ÿ est l'estimation consistante du paramètre 8 (par exemple, 
l'estimation du maximum de vraisemblance; pour plus de détails 


voir [28]). Cependant la statistique d, n’est pas en général non 
paramétrique, c’est-à-dire que sa distibution dépend de F.. 


2.1.4. Critère de conformité de Renyi. À la différence des critères 
de Kolmogorov et de Smirnov qui sont des fonctionnelles de la dif- 
férence des distributions hypothétique et empirique, A. Renyi 
a introduit des critères de conformité sous la forme de fonctionnelles 
de l'écart relatif des distributions empirique et hypothétique; le 
critère bilatéral 


FY(z. xO))— Fi (x) 


n = SUP F | (2.21) 
0<a< Fr) < b< 1, 

et le critère unilatéral 
dé = sup EX D) A G) 2 PA 2 (2.21) 


Fi (x) . 


Oca<F(n<b<i. 


Les critères de Renyi sont non paramétriques par rapport à l'hy- 
pothèse A, car ce sont des fonctionnelles de la différence des fonctions 
de répartition empirique et hypothétique. 

Pour les statistiques (2.21) et (2.21”) on a obtenu des distributions 
asymptotiques lorsque n—> oo. Ces distributions (pour b = 1) 
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sont [35] 
lim P (Va, < 2) =+ LS (— TX 
X exp { — ne Ro) 1. z2>0, a>0, (2.22) 


VE 
lim P [V ndi< 2} = À | e-t*!2 dt =- 


U 


=2F | —)—1, 2>0, a>0, (2.22') 
où F(u) est l'intégrale de Laplace. 

On trouvera dans [3, 35] les tables de valeurs de la distribution 
asymptotique (2.22). 


2.1.5. Critère de conformité de Mises. En vertu de ce critère la 
mesure quantitative de conformité est pour une taille donnée de 
l'échantillon la valeur moyenne de l’écart quadratique pondéré de la 
distribution empirique par rapport à la distribution hypothétique, 
soit 


d= [IF x) Fi (PF (aIdFi (x), (2.23) 


où Y(u) est la fonction de pondération. Pour ÿ = 1, on a 


du = miflFt (a, x0)— Fi (a) = À FT (a x) — Fi (2) dFi (2). 


(2.24) 


En substituant dans (2.24) l'expression de Fi (x, x'') donnée par 
(2.1) et en intégrant on obtient 


ts Dr) ET (2.25) 


h=1 


Il est facile de voir [10] que 


1 än — 
mfd=, Moildr}= te. (2.26) 


Le critère de Mises est non paramétrique par rapport à l'hypothèse 
H, car c’est une fonctionnelle de la différence des fonctions de répar- 
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tition empirique et hypothétique. L'expression exacte de la distri- 
bution de la grandeur Vrd, pour le critère de Mises, tout comme pour 
les critères envisagés ci-dessus, est très compliquée, mais pour 
n > 40 elle s'approche de la distribution limite. Donnons à titre 
d'exemple quelques quantiles de cette distribution limite (7 —> oo): 


0,5 0,4 0,3 0,2 0,1 
0,1184 0,1467 0,1843 0,2412 0,3673 
0,05 0,03 0,02 0,01 0,001 
0,4614 0,5489 0,6198 0,7435 1,1679 


RRER 


A 


2.1.6. Critère de conformité du 4°. Ce critère est l’un des plus 
usités dans les applications pratiques. 

Divisons le domaine de définition de la fonction de répartition 
hypothétique F, (x) en un nombre fini d'’intervalles disjoints A;, 


l 
i = 1,..., L. Désignons par p;, D Pi = 1 la probabilité a priori 


i= 1! 
pour une valeur échantillonnée de se trouver dans l'intervalle A:. 
Soit v, le nombre de valeurs de l'échantillon x = (x,, . ..,x,) qui 
ui 


tombent dans l'intervalle A;. Il est évident que D v; = n. 
= 1 
Prenons pour mesure d’écart entre les valeurs observées et les 
données a priori la grandeur 


l 


1 ‘ = 
d, = > Ab (vi—npi). (2.27) 


i=! 


Pearson (voir [11], $ 30.1) a montré que si l'hypothèse testée 7 
selon laquelle l’échantillon x appartient à la distribution F, (x) est 
vraie, pour z —oo la distribution de la statistique (2.27) tend 
asymptotiquement vers une distribution du 7° à L — 1 degrés de li- 
berté qui ne dépend pas de la distribution hypothétique F, (x). 

Soit y, l'&-quantile d’une variable aléatoire répartie suivant la 
loi du %x* à ! — 1 degrés de liberté, c’est-à-dire P {4° > x} = «@. 
La règle de vérification de l'hypothèse Æ se formule alors comme 
suit : l'hypothèse est rejetée si d, > x. La probabilité de la rejeter 
à tort est égale à «. 

Outre le défaut commun des critères de conformité d'avoir une 
distribution de la statistique (2.27) très compliquée pour un échan- 
tillon de taille finie, le critère du 7* présente l’inconvénient lié 
à la division arbitraire de l’axe réel en intervalles A;, sans rapport 
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à la forme de la fonction F,(x) ni au groupement des valeurs 
échantillonnées *). 

Les quantiles de la répartition du #* sont indiqués dans de nom- 
breux ouvrages et tables spéciales (voir, par exemple, tomelIl, annexe 
VIII, ainsi que (3). 


2.1.7. Vérification de l'hypothèse d'appartenance de deux échan- 
tillons à une même distribution. Soient x = (2,,..., ,,), Y — 
— (ÿ1, - - ., Yn,) des échantillons à éléments indépendants appar- 
tenant aux distributions F,, (z) et F,, (z) respectivement. Pour de 
nombreuses applications, il est utile de savoir vérifier l'hypothèse 
H': Fi, (z) = Fi, (2), contre l'alternative X : F,, (2) > Fi, (2). 

Si /';x (2) est une distribution du bruit, et F,, (z) une distribution 
du mélange du signal et du bruit, le problème formulé est un pro- 
blème de la détection d’un signal dans l'échantillon observe y lorsque 
l’on dispose de l’échantillon d'apprentissage du bruit x. Ce problème 
apparaît chaque fois où il y a lieu de vérifier l’'homogénéité d'un 
échantillon composé, obtenu à partir de plusieurs expériences ou 
essais. 

Il est clair qu'avec l'hypothèse Æ et une fonction de répartition 
F, (z) commune des échantillons x et y continue, la transformation 
u — Fi(z) fait correspondre à l'échantillon (x, y) un échantillon 
homogène issu d’une distribution uniforme sur l'intervalle (0,1). 
Par conséquent, les critères qui sont des fonctionnelles de la diffé- 
rence des fonctions de répartition empiriques F,% (z, x!) — F5 (z, 
y‘’) sont non paramétriques relativement à l'hypothèse H (voir 
2.1.2). 

On peut utiliser pour la vérification des hypothèses de l’appar- 
tenance de deux échantillons à une même distribution les trois 
critères suivants, analogues aux critères envisagés ci-dessus: 
le critère de Kolmogorov 


dun, = Sup | Fix (2, x) — F1, (2, »'?) |, (2.28) 


le critère de Smirnov 
dun, = SUP {FF (2, x) — FF, (2, x0)} (2.29) 


et le critère de Mises 


dun = | LFix( x0)— Fig (2, SO)EdF* (2, 20, 30), (2.30) 


— © 


*) Remarquons que le critère du 4° convient également pour les distribu- 
tions discrètes. Si r,,..., r sont les valeurs Dosaibles de la variable aléatoire 
ë, ct p; la probabilité a priori pour que & = r;, alors dans la formule (2.27) v; 
est le nombre de valeurs échantillonnées (dans l'échantillon de taille n de cette 


« 


distribution) égales à r,. 


2.1] CRITÈRES DE CONFORMITÉ 61 


où 

n1F(, r0)+n,F?, (5 yO) 
UT En LE ‘ 

Tous ces critères sont non paramétriques par rapport à l'hypothèse FH. 


Comme l’a montré N. Smirnov (voir {6], $ 63), pour l’hypothèse 
H on a 


F° (2, x°, y°) = (2.31) 


lim PIVN dun >2}=1—k(z)}, 2>0, (2.32) 
limP{(VN din >2z}=e-2", 2>%>0, (2.33) 


où 1/N = 1/n, + Â/n, et k (z) est la fonction définie par (2.9). 

On peut maintenant formuler la règle de vérification de l'hypo- 
thèse A à l'aide des critères de Kolmogorov-Smirnov. Pour l’alter- 
native F4 (2) # Fay (2), l'hypothèse A est rejetée si 


dun, > de (2.34) 


où le seuil d, est défini pour une probabilité donnée de l'erreur 
(niveau significatif) à partir de la condition (pour W © 1) 


1—k(YNd,) = «. (2.34') 


On peut utiliser pour première approximation de (2.34) la for- 
mule suivante : 


tt — 


1 2 " 
d=(in<). (2.34) 

Pour l'alternative unilatérale F,, (2) > F,,(z) l'hypothèse 
H est rejetée si 


din, ar: (2.35) 


où le seuil d,: est donné pour un niveau significatif &«’ donné à partir 
de la condition (pour W © 1) 


de = (im). (2.35') 


Un autre critère à deux échantillons, proposé par Wilcoxon et 
étudié par Mann et Witni, est basé sur le comptage du nombre 
d'inversions. À cet effet on forme des deux échantillons x et y une 
série variationnelle y't, y'?, x‘l, y'%, x'®, ... Si dans cette 
suite un z'‘ donné est précédé par s éléments y‘, ..., y de 
l'échantillon y, on a s inversions. Le nombre total d’inversions 
U est égal à la somme des inversions formées par tous les éléments 
du premier échantillon avec les éléments du second. I] est évident 
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que 
U = = À D u (zi—y;). (2.36) 


On peut montrer (voir [4], page 337) que pour rm + n: > 20, 
n, > 3 on peut considérer que la distribution du nombre total d’in- 
versions est normale avec une bonne approximation de paramètres 


mAU}= Lt, Mf0}= Et (nitno+1). (2.36) 


S'il est possible d'utiliser une distribution asymptotiquement 
normale de la statistique U, la règle de vérification de l’hypothèse 
H d'appartenance de deux échantillons à une même distribution 
d'après le critère de Wilcoxon se formule comme suit. 

Pour l'alternative F,, (2)  F, (2), l'hypothèse Æ est rejetée 

, pour un niveau significatif donné «, on a 


CU—m;{U} 
V M={U) 
où z,/2 est l’a«/2-quantile de la loi normale. 


Pour une alternative unilatérale F4 (2) > F1, (z) l'hypothèse 
H est rejetée, si pour un niveau significatif donné &« on a 


4 ne A {U} ra 


Les grandeurs m, {U}et MAU) dans (2.37) et (2.37) sont don- 
nées par les formules (2.36). 


> La/2; (2.37) 


2.2. STATISTIQUES UTILISÉES DANS LES ALGORITHMES 
NON PARAMÉTRIQUES DE DÉTECTION DES SIGNAUX 


2.2.1. Statistiques de signe. A partir d'un échantillon d'observa- 
tions indépendant on peut réaliser la synthèse des algorithmes non 
paramétriques de détection qui laisse inchangée la probabilité de 
fausse alarme pour une distribution quelconque du bruit stationnaire 
et une taille arbitraire de l'échantillon. Avec ces algorithmes, la pro- 
babilité de perte du signal sera évidemment supérieure à la valeur 
théorique et dépendra de la distribution du bruit. Nous allons envi- 
sager des algorithmes non paramétriques de détection des signaux 
utilisant des tests de signe, de rang et mixtes. 

Soit X — (xr;,, ..., z,) l'échantillon observé. Introduisons la 
fonction de signe 


T À; z Z>0, (2.38) 


2.2] STATISTIQUES UTILISÉES DANS LES ALGORITHMES NON PARAMÉTRIQUES 63 


Nous appellerons vecteur de signe d’un échantillon le vecteur 
sgn x — (Sgn 2:, . .., sgn zh). Nous appellerons statistique de signe 
une fonction arbitraire du vecteur de signe, et algorithme de signe, 
l'algorithme utilisant les seuls signes des éléments de l'échantillon. 

Si la distribution du bruit stationnaire est symétrique par rap- 
port au zéro, les nombres de signes positifs et négatifs dans l’échan- 
tillon sont équiprobables indépendamment de la forme de bruit. 
En présence d’un signal constant (positif) noyé dans un bruit, la 
probabilité des signes positifs dans l’échantillon devient supérieure: 
à la probabilité des signes négatifs, ce qui permet de détecter le- 
signal. Ainsi, les algorithmes de signe sont sensibles à la composante 
constante du signal. 

Parfois au lieu de la fonction de signe (2.38) on utilise la fonction 
du saut unitaire (2.1). Le vecteur u (x) de composantes [u (x), ... 

., u (xzh)] est dit vecteur de signe positif de l'échantillon. La 
fonction de signe est liée d’une manière univoque à la fonction 
du saut unitaire, en effet 


Qu(r) = senx +. (2.39} 


2.2.2. Statistiques d'ordre. Rangeons les éléments de l’échantil- 
lon x = (21, -.., x,) par ordre croissant, ji.e. x, < zx; si k€ j. 
On obtient alors un échantillon ordonné x‘, . .., xt" (série varia- 
tionnelle). Le vecteur x‘? dont les éléments coïncident avec les 
éléments de la série variationnelle est dit vecteur des statistiques d'ordre, 
et les éléments de ce vecteur, statistiques d'ordre. Pour des échantil- 
lons issus d’une distribution de densité continue, la probabilité de 
confusion de deux ou plus valeurs échantillonnées et par conséquent. 
des statistiques d'ordre est nulle. 

On peut facilement trouver la fonction de répartition (x) de 
la statistique d'ordre zx‘ pour un échantillon homogène indépen- 
dant de taille nr issu de la distribution F, (x). Comme la probabi- 
lité de trouver dans l'échantillon indépendant (x;, . .., x,) exacte- 
ment k éléments ne dépassant pas un seuil donné x est égale à 


(iQ —F (GNT, 
on a 


FŸ(x)= P{rD<z}= NS P{IM LI < 2H} = 
k=—i 


E k ) (Fi(z)f—F (GNT, (2.40) 


i=1, ...,n; 2(®+1)— 00. 
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En dérivant par rapport à x le membre de droite de (2.40) on 


obtient l'expression de la densité de probabilité de la statistique 
d'ordre x!i) 


2 (2) = FŸ (x) = wi (x) D) RO ELTATO) ICE TC) 
—(n—k) IF, Go HF; (2) #1} = 


= AW (x) > ( io | Fi GP — Fi GNT — 


»; ( a [Fi (x) (1—F: Cam Le 
ke=i 


=n (92) GNU Fr" (x). (2.40°) 


La cn de probabilité simultanée de r statistiques d'ordre 
p=xw, 1<s <...<s,<n est égale à (voir [5]) 


ID (Yas ser Yr)=R!((s5—1)!(s2—si—1)1...(n—s,)IT'Xx 
X FE (y1) (Fi (y2) — Fi 01) SEE H—F(g.) "7 Il u’1 (yi)- 


(2.40) 


En vertu de (2.40”) et (2.40”) l’ensemble des statistiques d'ordre 
z('), ..., x" est une suite markovienne simple, en effet 


_Ur a (Vis +, Yrs1) 
AD (Yr+s | Yrs es y1)= verre es Jr) 


— RTL (y, 1) Lo (Ur. Urs1) 
=(n—r)w; (Gr) RE = non = W(yrrlyr). 


2.2.3. Statistiques de rang. On appelle rang R; de l'élément 
z; d’un échantillon le numéro d'ordre de cet élément dans la série 
variationnelle ou, en d’autres termes, le nombre d'éléments de l’échan- 
tillon x inférieurs ou égaux à x;. Par conssquent: à la valeur échan- 
tillonnée x, correspond la statistique x'°° de la série variationnelle. 

On appelle vecteur de rang R (x) = (R,, ..., R,) de l’échantil- 
lon x la permutation des nombres 1,2, . .., n obtenue en rempla- 
çant les éléments de l'échantillon par leur rang. On appelle statisti- 
que de rang une fonction arbitraire du vecteur de rang. L’algorithme 


de rang est réalisé comme un test de comparaison d'une certaine 
Statistique de rang à un seuil. 
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On peut reconstituer l’échantillon initial xsi l’on connaît le vecteur 
x' ? des statistiques d’ordre et le vecteur de rang KR. Pris séparément, 
chacun de ces deux vecteurs est une transformation non linéaire 
irréversible de l'échantillon initial. Pour un échantillon homogène 
indépendant x les vecteurs aléatoires x‘? et R sont indépendants. 

On peut représenter le rang À, de l’élément zx; d’un échantillon 
de taille x à l’aide de la fonction du saut unitaire u(x) ou de la fonc- 
tion de signe comme suit: 


R;= D 'u(ri— x), =; 1:47; (2.41) 
Rh=1 


LU 


Ri=+ >, sgn (ti—z)++, LT; 7. (2.42) 


R=1 


En vertu de (2.41) et (2.42), les rangs sont des statistiques de 
signe des différences des valeurs échantillonnées. 

Pour un échantillon homogène indépendant la fonction de 
vraisemblance est invariante par rapport au groupe des permutations 
des arguments. Par conséquent, pour un tel échantillon tous les 
vecteurs de rang sont équiprobables, quelle que soit la distribution 
à laquelle appartient l'échantillon. Le nombre total de vecteurs 
de rang possibles correspondant à un échantillon de taille nr est 
égal au nombre de permutations de rz nombres, soit n!. Autrement 
dit, l’espace des vecteurs de rang des échantillons est formé par nr! 
points discrets de l’espace euclidien à nr dimensions. La probabilité 
pour le vecteur de rang KR de l’échantillon observé de se trouver dans 
un point quelconque r;, à — 1, ..., n!, de cet ensemble discret 
est égale à {/n!, c'est-à-dire pour chaque i = 1, ..., nl et pour 
une distribution quelconque homogène indépendante de l’échantil- 
lon on a 


P{R=r;|H} = 1/n!. (2.43) 


En vertu de (2.43) un algorithme de rang utilisé pour la détection 
d’un signal préserve la probabilité de fausse alarme pour un bruit 
stationnaire indépendant de distribution quelconque. Ainsi, un 
algorithme de rang est non paramétrique par rapport à un bruit 
stationnaire indépendant. 

En présence d’un signal variable dans le temps, les rangs cessent 
d’être équiprobables car l'échantillon n’est plus homogène *). 
Le rangement des éléments de l'échantillon par ordre de grandeur 
est déterminé alors par la forme du signal, ce qui permet de le détec- 


._ *) Par exemple, pour nr = 2 on a pour un échantillon indépendant homo- 
gène 

Wo (T1, T2) = Wa (21) Wyo (22) Æ Win (2) Wie (x). 
5—0165 
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ter. Ainsi, l’algorithme de rang est sensible à la non-stationnarité 
introduite par un signal variable dans le bruit stationnaire. 

Pour trouver la fonction de répartition du vecteur de rang d'un 
échantillon non homogène appartenant à la distribution w, (x|X) 
(par exemple, du mélange d'un bruit stationnaire et d’un signal 
variable dans le temps), il y a lieu de calculer l'intégrale 


P{R=ri|K}= | | Gr.) de, 
" 
où À, est le domaine contenant les points de l’espace échantillonné, 
auxquels correspond lors de la mise en ordre le vecteur donné r; — 


(ni sue rt). Cette intégrale, comme l’a montré Hoeffding, peut 
être ramenée à la forme [5]: 


. I Un Leo . s... h a) A] 
P{R=r|A}=—m D y 
Wn [x 


où w (: | H)est la densité d'un hante homogène et w (- | H) > 
> 0 pour w (- | À) >0. Malheureusement l’utilisation pratique de 
la formule (2.43”), sauf quelques cas spéciaux, se heurte à des dif- 
ficultés de calcul insurmontables. 

Remarquons également que le vecteur de rang d’un bruit station- 
naire est invariant par une transformation non inertielle de l’échan- 
tillon, i.e. 


}. (2.43) 


R (x) = R (fx), (2.43°) 


où f, est le vecteur de composantes f (x,), . . .. f (x,), et f (x) une 
fonction non décroissante, car une telle transformation ne change 
pas l’ordre relatif des éléments de l'échantillon x. En vertu de 
(2.43), après la transformation non linéaire mentionnée l'algorithme 
de rang reste non paramétrique vis-à-vis d’un bruit stationnaire 


indépendant. 

Dans certains problèmes on utilise le vecteur des valeurs absolues 
des observations | x | — (| 21 |, . .., | x, |) et le vecteur des rangs 
positifs R* — (Ri, ..., R) donnant les numéros d’ordre des élé- 


ments de la série variationnelle | x |‘!, ..., | x |” de l'échantillon 
des valeurs absolues des observations. Il est évident que x; — 
| x | sen x,. Tout comme (2.41), on peut écrire R? sous la forme 
d’une somme, soit 


n 


= 2u(lzl—lzl), ET 


L’algorithme mixte utilise la statistique de signe et de rang dépen- 
dant tant du vecteur des rangs R que du vecteur des signes sgn x 
de l’échantillon observe. 


2.4] ALGORITHMES DE SIGNE 67 


2.2.4. Volume des calculs que nécessite la réalisation des algo- 
rithmes de rang. Les dispositifs réalisant les algorithmes de rang et 
mixtes effectuent un traitement discret des observations. Pour 
prendre une décision on utilise non pas les grandeurs observées, ni 
même les valeurs quantifiées en amplitude des processus observés, 
mais seulement la suite des nombres naturels, de l'unité à n, liées 
à l'observation. 

Formons pour chaque élément zx; de l'échantillon z,, . .., x, 
les n différences x; — x;, j = 1. ..., n. En supposant (pour des 
distributions continues) x; — x; = 0, i — j, on voit que le rang de 
l'élément x; est égal au nombre des différences x; — x; > 0 (voir 
(2.41)). Composons la matrice dont les éléments sont u (x; — x;). 
C'est une matrice z X n aux éléments diagonaux nuls. Le nombre 
d'éléments « 1 » dans la ligne à est égal au rang de l'élément z;. 
Ainsi, pour calculer le vecteur de rang R d’un échantillon de taille 
n il y a lieu de former n° différences et d’effectuer 7 sommations des 
lignes de la matrice. 


2.3. ALGORITHMES DE SIGNE DE DÉTECTION 
DES SIGNAUX NOYÉS DANS DES BRUITS INDÉPENDANTS 


2.3.1. Détecteur de signe unilatéral du signal constant. Nous 
allons envisager le problème de la détection d’un signal constant 
s(t) = a noyé dans un bruit stationnaire indépendant additif de 
moyenne nulle et de distribution symétrique w, (x) *). Ce problème 
consiste à vérifier l’hypothèse Æ sur la symétrie par rapport à l’ori- 
gine de la fonction de répartition du bruit (i.e. vérifier l'hypothèse 
selon laquelle cette fonction est paire) contre l’alternative X que 
la fonction de répartition n'est pas symétrique par rapport à l’ori- 
gine. L'hypothèse H entraîne l’affirmation que la médiane de la 
distribution est nulle, i.e. 


p=P{r>0]1H}= 1/2, (2.44) 
et l'alternative Æ entraine que la médiane n’est pas nulle, i.e. 
p=P{r>0]|Xk}= 1/2. (2.45) 


La réciproque n’est en général pas vraie, c'est-à-dire que (2.44) 
n'entraine obligatoirement pas la symétrie. Pour les distributions 
symétriques la médiane et la moyenne coïncident. Supposons tout 
d’abord que a => 0, c’est-à-dire que p => 1/2. Le nombre de valeurs 


x 
*) On suppose également que la fonction de répartition F, (x) = | w (u) du 


est continue. 


FL 
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positives et négatives des échantillons pour x grand sera voisin de 
n/2 e l’absence de signal et supérieur à #/2 en présence d’un signal 
positif. 

Pour la détection d’un signal constant positif (pour p >>1/2) 
noyé dans un bruit stationnaire additif à distribution symétrique il 
est tout naturel d'utiliser l’algorithme de signe: le signal est présent 
(l'hypothèse Æ est rejetée) si pour un échantillon indépendant 
d'observations z;, ..., z, on a 


n 
D sen x; >Ci. (2.46) 
1=1{ 
Compte tenu de la relation existant entre les fonctions sgn z 
et u (x) (voir (2.39)), on peut formuler la règle de choix de décision 
comme suit: le signal est présent (l'hypothèse Æ est rejetée) si 


Du(x)>C, (2.47) 
et il n’y a pas de signal si l'inégalité inverse de (2.47) est vérifiée. 
Le seuil C est déterminé par la probabilité donnée de fausse alarme. 
L’algorithme de signe (2.47) est réalisé par un limiteur unilatéral 
parfait, un sommateur et un dispositif de comparaison à seuil 
(fig. 2.1). 

La somme dans le membre de gauche de (2.47), égale au nombre 
des valeurs positives dans un échantillon indépendant de taille n, 


Fig. 2.1. Schéma fonctionnel du détecteur de signe d’un signal constant. 


suit une loi de répartition des probabilités binomiale de paramètres 
(nr, 1/2) si l'hypothèse A est vérifiée et de paramètres (n, p) si c’est 
l'alternative X qui est vérifiée. En utilisant l’expression de la 
fonction intégrale de la distibution binomiale on trouve pour une 
probabilité donnée de fausse alarme & la grandeur du seuil C et la 
probabilité de perte du signal B. Il découle de (2.47) qu'il existe 
toujours un &« *-<a tel que 


na 


a=P{> u()>ICI+11A4)= D (;)42)"— 


=! R=[C]+1 


—=1—Iliy2(n—[C], [C14+1), (2.48) 
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où I, (a, b) est le rapport de la fonction bêta incomplète à la fonction 
bêta complète, [C] la partie entière de C. L’équation (2.48) donne 
un seuil constant pour des distributions quelconques du bruit pour 
une valeur donnée de la probabilité de fausse alarme *). 
La probabilité de perte de signal est 
n [C] 
n 
p=P{Su(r)<iClK}= D (;)#4—p"*- 
= k 


0 
=li,(m— (CI, (C1+1). (2.49) 


En vertu de (2.48) et (2.49), pour a >> 0, i.e. pour p > 1/2, 
la règle (2.47) est non biaisée pour une probabilité de fausse alarme 
égale à & *. En effet, pour q — 1 — p << 1/2 l'inégalité (voir tome 
I, (1.22)) 

1/2 q 
Bi,>(n—m, m+1)=— \ 21 (1 — 2)" dz >> | 2-1 (1 — 2)" dz = 
0 0 
= B,;(n—m,m+i) 
entraîne 
Liz (nr —1[07, 101+1) > 1 (7 —[CT, 1C1+ 1) 


et par conséquent 
1—B>a*. 


Pour un échantillon de taille importante la distribution binomiale 
peut être approximée par une loi normale (voir tome I, 1.2.2) de 
moyenne np et de variance rp (1 — p). Les formules de la probabi- 
lité d'erreurs de première et de seconde espèce pour x à 1 peuvent 
alors s’écrire sous la forme 


a—1—F{ a) (2.50) 
C—n 
re) si 


où F(x) est l’intégrale de Laplace. 
Pour une probabilité donnée de l'erreur de première espèce 
a le seuil C est donné par (2.50), soit 


C=(z.Vn+n)/2, (2.51°) 

où x, est le a-quantile de la loi normale. En substituant (2.51’) 
*) Plus exactement, l'équation (2.48) détermine [C]. 11 se peut qu’il n'existe 

pas de nombre entier [C] pour lequel le membre de droite de (2.48) soit exacte- 


AS qrl à «. Dans A.3.1 on trouvera une table des grandeurs {C] empruntée 
ans [4]. 
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dans (2.50) on obtient ” n >i 

2p—1)Vn). 2.52 
TRS 77 6e @p—1)Vr) (2.52) 


(2.52) permet de voir que pour une règle non biaisée (a >> 0) 
pour x —+ © la probabilité d'erreurs de seconde espèce B — 0. 

Si a < 0 (i.e. p << 1/2), la règle non biaisée sera celle qui im- 
plique le rejet de l'hypothèse A lorsque l'inégalité inverse de (2.47) 
est vérifiée. 

On a alors 


Ti-Bp — 


= P(Zu(x)<1CI1#)=z(r—1CI, (C1+1), (2.53) 


B=PIDu(x)Z1C)+1|Aj=1—h,(r—1CI,1C1+1) (2.54) 
et pour p << 1/2 en vertu de (2.53) et (2.54) on a 1 — f > « *. 


2.3.2. Détecteur de signe bilatéral d'un signal constant. Pour un 
signal de signe quelconque, i.e. pour p = 1/2 quelconque, on peut 
formuler la règle bilatérale non biaisée de choix d’une décision en 
vertu de laquelle l'hypothèse Æ sur la symétrie de la distribution 
est rejetée si le nombre total d'éléments positifs de l'échantillon 
ou le nombre total d’éléments négatifs dépasse un certain seuil, 
c'est-à-dire 


2 u(xi)ZzC ou n— ÿ u(xi) >C. (2.59) 
i=1 


1= 


La probabilité de fausse alarme est alors égale à (comparer avec 


(2.48)) 


at = P (D u (x) >1C1+1 | H}+P{ZDu(z) <n—[Ci| H]= 


=1—liy2(r—1C), 10141) + ie (CI +1, nr —1C)) = 
= 2{11—TJiys(n—[C], (C)+1)]. (2:56) 
La probabilité de détection correcte est 


1-p=P{S u (x) > [C1] K}+P{S u(x)<n—ICi|K}= 
i=1 Fi 


Ha n—[Cl-1 
= > (i)ra-prte > (r)rtA—-pnt— 
k=[(C]+1 k=0 


=1—1;,(n—1C], 1C]+1)+li,(1C)+1,R—[C). (2.57: 
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Il est facile de montrer que la règle (2.55) est non biaisée, en 
effet 


1—B=1—1,(n—1{CI, 1C1+1)+1,(C1+1,r—[C) > 
>œ>1— Tien —[C1, [C1+1)+ ie ([C1+ 1, nr —[C)) = a. 
Pour rz ÿ 1, d'une manière analogue à (2.50) et (2.51) on trouve 


a-2[1-r(>)], (2.58) 
C—n n(1—p)—C 
Gen) en) 059 


Pour une probabilité donnée de fausse alarme « le seuil C est trouvé 
à partir de (2.58) 


C=(za2Vr+n);2. (2.60) 
En portant (2.60) dans (2.59) on trouve 


m F Zals=(CP=NVr | _p — To/s — (2P— 1) Vu: 9 6 
; | 2 VP(1—p) | 2 y P(1—Pp) Je Ge 


2.3.3. Efficacité relative du détecteur de signe unilatéral. Com- 
parons l'algorithme de signe unilatéral (2.47) avec l'algorithme 
optimal pour la détection d'un signal positif constant noyé dans un 
bruit normal additif de moyenne nulle et de variance donnée. 

La règle optimale (uniformément la plus puissante) suivant le 
critère de Neyman-Pearson de détection d'un signal positif constant 
noyé dans un bruit normal additif d’après un échantillon indépen- 
dant d'observations (xz;,, . .., x,) consiste à comparer les sommes des 
valeurs échantillonnées à un seuil déterminé pour une valeur 
donnée de la probabilité de fausse alarme (voir tome II, 1.3.1). 
Supposons que l'algorithme linéaire unilatéral 


à x>C, (2.62) 


optimal pour un bruit normal, soit utilisé pour la détection d’un 
signal positif a => 0 noyé dans un bruit additif de moyenne nulle, 
ayant une distribution w,(x) symétrique quelconque de variance 
6° <Z co. En vertu du théorème de la limite centrale pour un échan- 
tillon indépendant issu d’une distribution quelconque de variance 
finie, la statistique du membre de gauche de (2.62) est asymptotique- 
ment normale (pour nr © 1) de paramètres (0, no°) en l'absence de 
signal et (na, no) en présence du signal. Les probabilités de fausse 
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alarme et de perte de signal pour x D 1 sont respectivement 
n 


amP(ZaDCisno}-1=F( ). (2.63) 
P=P(Da<cla>o}-F(E). (2.64) 


Pour une probabilité donnée de fausse alarme & on obtient à 
partir de (2.63) le seuil 


C=x,0 Va (2.65) 
et en substituant (2.65) dans (2.64) on obtient (voir tome II, (1.77')) 
Zi6= Te — (=) Vr. (2.66) 


Fixons maintenant les valeurs &, B des probabilités d'erreurs, 
et soient n, et », les tailles des échantillons nécessaires pour obtenir 
les valeurs données des erreurs dans le cas de détection du signal 
d’après l’algorithme de signe (2.47) et l'algorithme linéaire (2.62) 
respectivement. En vertu de (2.52) et (2.66) on obtient immédiate- 
ment 


1 ER 7 
B=—— Û(r,;—(2p—1 Ni), 2.67 
Ti1-8 2VPÜ—7r) ( æ —(2p )Y 1) ( ) 
Ti = Ta —— } ULE (2.67°) 


Il est facile de voir que (2.67) et (2.67’) correspondent à la règle 
générale (1.71), car dans le cas envisagé on a 


du _ "An 1) 
AH—=—, AnK—=Np, 


) 
cu, où=Vnpl=p), 
on = 0x = Vno. 
Proposons-nous de trouver le coefficient d'efficacité asymptoti- 
que relative p de l’algorithme de signe par rapport à l’algorithme 
linéaire, en utilisant à cet effet la formule générale (1.72) et en tenant 
compte du fait que les distributions des algorithmes mentionnés 
sont asymptotiquement normales. 
Puisque nous avons supposé que la fonction de distribution 
w, (x) du bruit additif est symétrique, nous avons 
O0 O0 

p=P{z>0|a>0}— | wW,(z—a) dx = | W, (y) dy = 
0 —a 
a 


= ++ wi(z+a) dr=+ av, (0)+o(a), (2.68) 


2.3] ALGORITHMES DE SIGNE 13 


4p (1 — p) = 1 + 0 (a), (2.68) 
et à partir de (1.70”) il vient 
e, = lim rw, (0)/(n/2) = 2w, (0), (2.69) 
; Î , 
lime. (2.69) 


En substituant (2.69) et (2.69”) dans (1.72) on obtient l’expres- 
sion du coefficient d'efficacité asymptotique relative 


p = 4o?u (0). (2.70) 


La formule (2.70) peut évidemment être déduite directement 
à partir de (2.67), (2.67') et (2.68) en posant a Vri = Ya, @ Ve — 
= Y.. En négligeant les infiniment petits o (a), les racines de ces 
équations sont 


Ta Ti1-$p 
Vi— 2w, (0) » Y2—0 (Ta — T1-B); 


ce qui permet de calculer le rapport (y:/y.)". 
Dans l'hypothèse que la distribution du bruit est normale, 
on a w, (0) — (2n0*)-!/*, alors en vertu de (2.69) on trouve 


p = 2/n + 0,64, (2.71) 


donc le détecteur de signe (pour des tailles importantes de l’échan- 
tillon et un signal faible) est presque deux fois moins efficace que 
le détecteur linéaire optimal pour un bruit normal. 

Mais il en va tout autrement pour une distribution du bruit 
autre que la loi normale. Ainsi pour un bruit laplacien 


w(=+e xl, 150, (2.72) 


on a 
w, (0) = À/2, o° = 2/. 
En vertu de (2.70), on obtient alors 

p = 2, (2.727) 
i.e. le détecteur de signe est (asymptotiquement) deux fois plus 
efficace que le détecteur linéaire. Mais pour un bruit uniforme pour 
is w, (x) = 1/2a, |x | << a, o° — a°/3, (2.73) 

on obtient à partir de (2.70) 
p = 1/3, (2.73") 
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et pour un bruit sinusoïdal de phase aléatoire, de distribution 


1 a° 
D nr pr Jri<a, o=—, (2.74) 
on a 
p = 2° = 0,2, (2.74') 


c'est-à-dire que dans ces cas le détecteur linéaire est bien plus effi- 
cace que le détecteur de signe. 

En vertu de (2.70), pour un bruit de distribution symétrique, 
pour lequel w, (0) — 0, le coefficient d’efficacité asymptotique rela- 
tive de l'algorithme de signe par rapport à l’algorithme linéaire 
est égal à zéro. A titre d'exemple on peut citer la distribution bimo- 
dale suivante 


wi(z)=(1/2)]zle-lxl. 


Remarquons (voir tome II, 1.5.1) qu’en vertu de la règle opti- 
male suivant le critère de Neyman-Pearson de détection d'un signal 
positif noyé dans un bruit normal additif indépendant de moyenne 
nulle et de variance inconnue la décision que le signal est présent 
est prise dans le cas où pour une probabilité donnée de fausse ala- 
rme &œ on a 


71 n 1 
2-1--1,2 
= Dal D(u-iDs) |" >e (27,5) 
Lœ h: 1! : h=1 = 
où t, est l’a-quantile de la loi de Student. Le carre du dénominateur 
dans le membre de gauche de (2.75) est une estimation non biaisée 
de la variance. Ainsi pour nr —oo la statistique (2.75) coïncide 
avec la statistique linéaire (2.62), avec t, —+x,, le seuil étant donné 
par (2.65). Ainsi, la formule (2.70) reste vraie également pour le 
coefficient d'efficacité asymptotique relative de l'algorithme de 


*% 


signe par rapport à l'algorithme (2.75). 


2.3.4. Efficacité relative du détecteur de signe bilatéral. Nous 
allons maintenant comparer l’algorithme de signe bilatéral (2.55) 
avec l'algorithme optimal pour la détection d'un signal constant 
(de signe quelconque) noyé dans un bruit normal additif de moyenne 
nulle et de variance donnée. 

On sait (voir tome II, 1.4.7) qu’en vertu de la règle optimale 
(non biaisée et uniformément la plus puissante) suivant le critère 
de Neyman-Pearson de détection d’un signal constant noyé dans 
un bruit normal additif d’après un échantillon indépendant d'obser- 
vations (zy, .- - ., Zn), la décision sur la présence du signal est prise 
dans le cas où pour une probabilité donnée de fausse alarme «& on a 


| à t1|>Ta/20 Vr. (2.76) 
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Supposons que l'algorithme linéaire bilatéral (2.76) est utilisé 
pour la détection d’un signal constant a O0 noyé dans un bruit 
additif de moyenne nulle, de variance 0“ et de distribution symétri- 

n 
que quelconque w, (x). La somme — » z; étant pour l’alterna- 
oy'n _ 
tive À asymptotiquement normale de paramètres (a Wn/o, 1), pour 
n ÿ 1 la probabilité de perte de signal lors de la détection suivant 
l'algorithme (2.76) est 


B=F(zur—<Vr)—F(-zo-2Vn). (2.77) 


La probabilité de perte de signal lorsque l’on utilise l’algorith- 
me (2.59), pour nr > 1, est en vertu de (2.61) égale à 


—_(2p— ln —_ rois —(2p—1)Vn- 
plzer=@r-DVr7 _p Tais—(2P—1) | 278 
| nou 2VP({—Pp) 2” 2 VPr(—p) re 


En comparant (2.77), (2.78) avec les formules générales (1.74), 
(1.74°) on voit immédiatement que la grandeur p dans le cas envi- 
sagé coïncide avec (2.70). Ainsi, le coefficient d'efficacité asympto- 
tique relative de l'algorithme de signe bilatéral de détection d’un 
signal constant par rapport à l’algorihme linéaire bilatéral est 
égal au coefficient p pour les algorithmes unilatéraux. 

On sait (voir tome II, page 74) qu’en vertu de la règle optimale 
(non biaisée et uniformément la plus puissante) d’après le critère 
de Neyman-Pearson de détection d'un signal constant noyé dans 
un bruit normal additif de moyenne nulle et de variance inconnue, 
la décision sur la présence du signal est prise si pour une proba- 
bilité donnée de fausse alarme « on a 


Vn | >: a 1 > ( 7x —+ >= 1) rer (2.79) 


OÙ tua eSt de la loi de Le. Le carré du dénomi- 
nateur dans le membre de gauche de (2.79) est une estimation non 
biaisée de la variance 0° de la distribution à laquelle appartient 
l'échantillon. C’est pourquoi pour nr à 1, pour un échantillon 
homogène indépendant issu d’une distribution quelconque, (2.79) 
s’identifie à (2.76). Par conséquent, la formule (2.70) reste égale- 
ment vraie pour le coefficient d'efficacité asymptotique relative de 
l'algorithme de signe bilatéral par rapport à l'algorithme (2.79). 

Rappelons que tous les algorithmes de signe que nous avons 
vus sont utilisés pour la détection d'un signal constant noyé dans 
un bruit additif à distribution symétrique. I] est évident qu’un 
détecteur de signe est inefficace dans le cas d’un signal constant 
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noyé dans un bruit à distribution unilatérale (par exemple, un 
bruit de Rayleigh). Qui plus est, si w, (0) = 0 l’utilisation d’un 
algorithme de signe méme pour un bruit à distribution symétrique 
est asymptotiquement non efficace. C’est le cas, par exemple, pour 
un bruit à distribution bimodale symétrique. 


2.3.5. Détecteur de signe d'un signal détérministe quelconque. 
Le détecteur de signe peut être utilisé pour la détection d’un signal 
déterministe quelconque Às (t), À > 0, noyé dans un bruit additif 
indépendant de moyenne nulle et de distribution symétrique w, (x). 

Dans ce cas il faut vérifier l'hypothèse À : À — 0 selon laquelle 
l'échantillon observé x;, ..., x, appartient à la distribution du 
bruit contre l'alternative Æ : À > 0 que l'échantillon appartient 
à la distribution du mélange du signal et du bruit. La règle de 
vérification de l'hypothèse utilisant un algorithme de signe se 
formule dans ce cas comme suit : l'hypothèse FH est rejetée (le signal 
est présent) si 


n 


D u(sxx) >C, (2.80) 


OÙ Sy — S(tx), k — 1, ..., n, et sgn [As (t)] — sgns(t) pour A> 
> 0. Le seuil C est déterminé par une probabilité donnée «& de 


Fig. 2.2. Schémas fonctionnels des détecteurs de signe des signaux déterministes. 


fausse alarme. Le schéma du détecteur de signe d’un signal détermi- 
niste est donné sur la figure 2.2, a. 


2.3] ALGORITHMES DE SIGNE 


) 
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L’inégalité (2.80) peut s’écrire comme suit (voir (2.39)): 


LL n 


ni u (ST) = + > sgn (sr)+5 = > S£N S; S£n ni+s>C. (2.80”) 


i=-1 i=1 i=1 


A partir de (2.80’) on voit que dans le schéma du détecteur de 
signe on peut effectuer la multiplication après la limitation du 
processus observé x (t) et du signal déterministe s (f) (fig. 2.2, b). 

Dans une autre variante du détecteur de signe d’un signal déter- 
ministe on effectue d’abord une limitation du processus z (ti) et 
puis la multiplication par les valeurs du signal, obtenues à partir 
d’un oscillateur local (fig. 2.2, c). On prend la décision sur la pré- 
sence du signal si 


à Sp Sgn 2, >ZC (2.80”) 

ou (pour une variation Énrestondante du seuil) 
: su (2x) > C. (2.807) 
Pour un échantillon indépendant la somme des variables aléa- 


toires dans (2.80) est asymptotiquement normale (voir 2.80”) de 
paramètres 


m, D u(st)}=+ + >, (2p;— 1) sgn s:, (2.81) 
i—=1 i—{ 


car 
m,{sgnzi}—2pi—1, pi=P{xi20} (2.81°) 
et 
M,(Zu(sx)]= 2 pi(t— po, (2.82) 
car 
M, {sgn zi}=1—(2p—1)?= 4p: (1 — pi). (2.82) 


En l'absence de signal (hypothèse H) on à p; — 1/2. Donc à par- 
tir de (2.81) et (2.82), on obtient pour n > 1 la probabilité de fausse 
alarme 


aœ—1i—F (=) , (2.83) 


d’où l’on trouve la valeur du seuil C dans (2.80) 
C=+ (za Vr+n). (2.83°) 
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laquelle, comme on pouvait s’y attendre, coïncide avec (2.51). 
Pour l'alternative XÆ (le signal est présent) on a (voir (2.68)) 


pi= P{ri>0}=++ sw (0) + o(À), 


4pi (1 — pi) = 1—0 (à) 
et par conséquent 


iz {| 


m {D u(six)|K} +++ (0) D Is, | S:| = siSgen s;, (2.84) 
i= | 


M {> U (Sixi) | K} +. (2.84°) 
i= | 
La probabilité de perte de signal est 
; . 
fe F7 —Vn(1+ 2% (0) au») |, (2.85) 
où 
1 : , 
aan D ls. (2.85') 
i=1 


A partir de (2.85) et (2.83’) on trouve 
Tip=To—2À Vnu:(0)aln: (2.85) 


Remarquons que lorsqu'on utilise l'algorithme (2.80”), les 
quantiles x,_8 et r, sont liés par la relation 


Tipg=te—2À Vnuw,(0) W,,, (2.85") 
où 


Wan D st. (2.85"") 


2.3.6. Efficacité relative du détecteur de signe d'un signal dé- 
terministe. Nous allons comparer l'algorithme de signe (2.80) de 
détection d’un signal déterministe (de signe alterné) noyé dans 
un bruit additif avec l'algorithme linéaire 


2 azæ>C, (2.86) 


qui, comme on sait (voir tome IT, $ 5.2), est un algorithme opti- 
mal, d’après le critère de Neyman-Pearson, de détection d'un signal 
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déterministe noyé dans un bruit normal additif d’après un échan- 
tillon indépendant d'observations. 

Supposons que l'algorithme linéaire (2.86), optimal pour un 
bruit normal, est utilisé pour la détection d’un signal déterministe 
Às (t)}, À >> 0, noyé dans un bruit additif de moyenne nulle et de 
distribution symétrique quelconque de variance finie o*. En vertu 
du théorème de la limite centrale *), pour un échantillon indépendant 
appartenant à une distribution quelconque (pour 0° << ), la sta- 
tistique dans le membre de gauche de (2.86) est asymptotiquement 
(pour x © 1) normale de paramètres (0, no°W,,) quand il n’y 
a pas de signal, et de paramètres (An Win. n0o°W,,) en présence 
du signal, car dans ce cas 


Maftr} = ÀSn, Sn = S (tx). 


La probabilité de perte de signal $ et la probabilité donnée « 
de fausse alarme sont liées par (voir (2.66)) 


Tip= te VWaVr. (2.87) 


Nous allons trouver le coefficient d'efficacité asymptotique 
relative de l’algorithme de signe (2.80) par rapport à l’algorithme 
linéaire. En comparant (2.87) avec (2.66), et (2.85) avec (2.52) 
nous voyons que le coefficient mentionné peut être obtenu à partir 
de (2.70) par multiplication par 

T 
. (Leu La 
Vi= lim te = lim = — (2.88) 


\ st(t)dt 
0 


OÙ ajsj,n et Wsn Sont donnés par (2.55’) et (2.85”). 
Ainsi, le coefficient cherché d'efficacité asymptotique relative 
est égal à 
p = 402w° (0) Vi. (2.89) 
Remarquons que V, < 1, avec V, — 1 pour un signal constant. 
Pour l'algorithme (2.80”) en vertu de (2.85”) et (2.87) on a 


p = Ao?u:° (0), (2.89’) 


ce qui coïncide avec (2.70). Le coefficient d'efficacité asymptotique 
relative de l’algorithme (2.80”) par rapport à l'algorithme (2.80) 
est égal à 1/V3 > 1. 


*) Avec la restriction supplémentaire suivante: pour n —o 


n 
max s3/ ©, s2—0, ce qui est pratiquement toujours réalisé. 
k=1 


1<hk<n 
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2.3.7. Détecteur signe-quantiles d’un signal constant. Supposons 
qu'en plus de savoir que la distribution du bruit additif est asy- 
métrique par rapport à l’origine des coordonnées, on connaît m 
quantiles de cette distribution Zq, = F1 (q;), j = 1, ..., m, où 
F7" (q) est la fonction inverse de la fonction de répartition du bruit 
normée, et O0 < qg<1. Cette information a priori supplémentaire 
peut être utilisée pour augmenter l'efficacité du détecteur de si- 
gne (2.47) tout en conservant sa propriété d’être non paramétrique *). 

Au lieu de calculer le nombre de signes positifs dans un échan- 
tillon indépendant on détermine le nombre des dépassements pour 
chaque quantile donné, puis la somme de ces nombres est comparée 
au seuil. Ainsi, on arrive à l'algorithme suivant pour la détection 
d'un signal constant (positif) a noyé dans un bruit additif de variance 
0° et de distribution symétrique: on prend la décision que le signal 
est présent si 


à 2 u(r/0—z)2>0C, (2.90) 


et la décision sur l’absence de signal si l’inégalité inverse de (2.90) 
se trouve vérifiée. L'utilisation de l'algorithme (2.90) est fondée 
sur l'hypothèse admissible que l’apparition d'un signal constant 
(positif) déplace à droite tous les quantiles de la distribution du 
bruit. Il y a lieu de noter que pour la réalisation de l’algorithme 
(2.90) on a besoin de mn opérations au lieu de n dans le cas du détec- 
teur de signe. 


2.4. ALGORITHMES DE RANG DE DÉTECTION DES SIGNAUX 
NOYÉS DANS DES BRUITS INDÉPENDANTS 


2.4.1. Détecteur signe-rang d'un signal constant. Les détecteurs 
signe-rang des signaux sont en général plus efficaces que les détec- 
teurs de signe que nous avons étudiés précédemment, étant égale- 
ment non paramétriques. Envisageons tout d’abord l'algorithme 
signe-rang de détection d'un signal constant (positif) noyé dans 
un bruit additif de moyenne nulle et de distribution symétrique. 
Cet algorithme non paramétrique, plus compliqué que l'algorithme 
de signe (2.47), utilise non seulement l'information concernant les 
signes des éléments de l'échantillon, mais également les rangs des 
valeurs absolues des observations. 

Soient x — (x,, . .., Zn) l’échantillon indépendant observé, et 
RŸ le rang de l'élément |zx; |. Un des algorithmes signe-rang pos- 
sibles de détection d’un signal positif consiste à comparer avec 


*) Le choix optimal des quantiles est étudié dans [16]. 
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un seuil la somme des composantes du vecteur des rangs positifs, 
qui correspondent aux valeurs échantillonnées positives zx; > 0. 
On prend ainsi la décision que le signal est présent si 


Sh(x)= » Rt= 2 Riu(x)>C, (2.91) 
x, >0 i=1 


où le seuil C est déterminé avec une probabilité donnée æ« de fausse 
alarme *). 
Etant donné que 


n n 
Drt= 5x 200, 
i={ k=1 
on peut écrire comme suit l'inégalité (2.91) compte tenu de (2.39) 


n 
1 1 , 
Sa (x)= + >, RŸ sgn 7,420 LC. (2.91°) 
i=1 
Le schéma de l'algorithme signe-rang envisagé comprend un 
redresseur, un dispositif de mise en rang des valeurs absolues des 


Fig. 2.3. Schéma fonctionnel du détecteur signe-rang d’un signal constant. 


éléments de l'échantillon, un limiteur parfait, un multiplicateur, 
un sommateur et un dispositif de comparaison au seuil (fig. 2.3). 

L’algorithme envisagé peut s’écrire sous une forme plus compacte 
en remarquant que u (x; + x;) = 1 si et seulement si x; > |zx; |, 
2> 0 ou zx; > |zr; |, zy > 0. Compte tenu de cette remarque 
on obtient 


S,, (x) = À 2 u(ri+z;)>C. (2.92) 


*) On appelle parfois l'algorithme (2.91) algorithme de rang de Wilcoxon 
à un échantillon (voir (5, 33]). Dans A.3.2. on trouvera une table empruntée dans 
[20] caractérisant la distribution d'une statistique signe-rang. 


6—0165 
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Pour un échantillon de taille finie il est assez difficile de trouver 
les fonctions de répartition de la statistique S, (x). Mais pour rn —+ oo 
en vertu du théorème de la limite centrale la distribution S, (x) 
est asymptotiquement normale. Nous allons trouver la valeur 
moyenne et la variance de la statistique S, (x) tant pour l’hypothèse 
H (il n’y a pas de signal) que pour l'alternative Æ (le signal est 
présent), ce qui nous permettra pour le cas nr © 1 de déterminer, 
pour une probabilité donnée « de fausse alarme, le seuil C dans 
l'algorithme (2.91) et la probabilité de perte de signal. 

Notons tout d’abord que l'indépendance des vecteurs R* et 
sgn x pour un échantillon indépendant x d’un bruit stationnaire 
entraîne pour l'hypothèse H 


Li 


ma {Sn (x)}=+ D mi (Rt}m {sen 1) + D, 


ii 
et comme pour une distribution symétrique du bruit on a m,{sgn x;}— 
— 0, alors 
mi {SA(x)} = n (nr + 1)/4 (2.93) 


et pour n > Î 
mi {Sa (x)} — 22/4. (2.93) 


Pour l’hypothèse H la variance de la statistique S, (x) est égale à 


MS (= +m D D RER sen sisgn 2} = + D mi{Ri}. 
i--1 j=1 i= 1 


Mais 
m {Ri°}= D KP{R'=k)} 
k=1 


et pour un bruit stationnaire P {RŸ = k} Z. Donc 


nl 
R=1 


MS (}=+ D (LE) 
i-1 
et comme à k* = n(n + 1) (2r + 1)/6, pour l'hypothèse H on a 
M: {Sn (x)} = n (n + 1) (2n + 1)/24. (2.94) 
Pour nr 51 
Mo {Sn (x)} = n%/12. (2.94”) 


Pour trouver la valeur moyenne de la statistique S, (x) pour 
l'alternative X servons-nous de la formule (2.92). Dans le second 
membre de cette formule on a n termes pour ÿ = à et n (n — 1)/2 
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pour j Æ i. La statistique S, (x) est égale au nombre des cas où 
z; + zj Z 0. Par conséquent, pour l'alternative. X, on a 
mi{Sn(x)}}=nP{z>0 | K}+ C0 P{z+y> OK}. (2.95) 
Mais 
P{r>0|K}=1—F(0la), (2.95) 


et pour des x et y indépendants 
P{r+y>0|K}=1— | Fi(—zla)wi(zla)dz, (2.95°) 


où },(z la) est la fonction de répartition et w, (z | a) la densité 
de probabilité de la somme d’un signal constant a >> 0 et d’un 
bruit stationnaire. En utilisant (2.95) à (2.95”) on obtient 


ms {Sn (x) =D nr, (0 | a)— 
— 109 | Fi(—zl|a)wi(z|a)dz. (2.96) 


Pour une distribution symétrique du bruit additif w, (2 | a) — 
= W, (2 — a) pour a +0 ona 
0 
1 
Fa(O01a)= | wi(z—a)d=5+au(0)+o(a), (2.97) 


| Fi(—2la)w,(z|a)dz= | Fi(—z—a)w,(z— a) dz— 


— © 


= À Fity—2e)ui(—y)dy= | 1Fi(y)— 2aw (y)+ 0 (a)] a (y) dy= 


{ C a ” 
= — 2a | wi (y) dy+o(a). (2.97') 
En substituant (2.97) et (2.97') dans (2.96), on obtient pour 
nSiÂeta Vn — const 


© 


ma (Sn (x)} = na | wi (y) dy. (2.98) 


D'une manière analogue on peut montrer que pour l’alterna- 
tive X, lorsque r © 1 et a Vn — const, on a — 
Ma {Sn (x)} = n9/12. (2:09) 


6+ 
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En utilisant (2.93’) et (2.94) et le fait que la statistique S, (x) 
est asymptotiquement normale, on obtient la probabilité de fausse 
alarme pour r © 1, soit 


ami(e). 


d’où pour une valeur donnée de & on trouve le seuil C dans l’algo- 
rithme (2.91), soit 


C=5 (za y 2+2), (2.100) 


où zx, est l’a-quantile de la distribution normale. 
En utilisant (2.98) et (2.99) on trouve la probabilité de perte 
de signal pour n > 4 et a Vnr = const 


p=r[(c—%-nta | ut(uàv)/VAT] 


ou, compte tenu de (2.100), 


P=F(ze—V12an f uw? (y) dy ). (2.101) 


On peut évidemment écrire la formule (2.101) sous la forme 


Zi8—=£ta—V12ar | 3 (y) dy. (2.104!) 


2.4.2. Efficacité relative du détecteur signe-rang. Maintenant il 
n’est pas difficile de calculer le coefficient p d'efficacité relative 
de l'algorithme signe-rang de détection d’un signal constant par 
rapport à l’algorithme linéaire (2.62). A cet effet il y a lieu de répéter 
le raisonnement de 2.3.3 et de remarquer que pour a Wn = const la 
formule (2.101’) peut être obtenue en remplaçant la grandeur 2w, (0) 


C0 


par V 12 | w? (y) dy (voir également (2.68)). 


On obtient alors 


p= 120? | ( w? (y) dy), (2.109) 


où w, (y) est la densité de probabilité du bruit et 0° la variance du 
bruit. 


?f 
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Si la distribution du bruit est normale (de moyenne nulle) on a 


C0 


| wi (U) dy= | 


et à partir de (2.102) on a p = 3/n = 0,955, c’est-à-dire que le 
détecteur signe-rang envisagé pour un bruit normal (pour un échan- 
tillon de taille importante et un signal faible) n’est qu'un point 
moins efficace que le détecteur optimal linéaire. Une augmentation 
considérable de l'efficacité par rapport à l'algorithme de signe 
(voir (2.71)) ne peut évidemment être atteinte qu’au prix d’une 
complication de l'algorithme. Alors que le nombre d'opérations 
pour l’algorithme de signe (2.47) croît linéairement avec. la taille 
de l'échantillon, le nombre d'opérations dans un algorithme signe- 
rang est proportionnel au carré de la taille de l’échantillon. 

Dans la table 2.1 ci-dessous sont indiquées les valeurs du coef- 
ficient d'efficacité asymptotique relative de l'algorithme signe-rang 
par rapport à l'algorithme linéaire pour les mêmes distributions 
du bruit que celles données dans 2.2.3. 

La formule en bas de la table représente la distribution la moins 
favorable du bruit pour laquelle le coefficient p prend la plus petite 
de ses valeurs *). Pour toutes les autres distributions p > 0,864. 


Table 2.1. 
Distribution du brait p 
Normale 0,955 
Laplacienne 1,5 
Uniforme 1 
Sinusoïdale de phase aléatoire © 
Di (= —— f(1—32/(50)], [zl<o V3 | 0,864 
40 V/5 


*) 11 est facile de voir que le minimum de la fonctionnelle | _w£ (y) dy pour 


—©œ0 : 
oc? donné et lorsque w, (y) est non négative et normée a lieu ‘pour w, (y) — 


=b— ay, ]y|< V'b/a, b > 0, a > 0. Les constantes « et b sort ‘données 
par les relations se nS. 


LUE 
Vb/a Vb/a Le 
2 | zu, (y)dy=0, 2 Î Wu (y) dut | 
0 0 pou Re 
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En raisonnant comme à la fin de 2.3.6 on arrive à la conclusion 
que la formule (2.102) reste vraie pour le coefficient d'efficacité 
asymptotique relative de l’algorithme signe-rang envisagé de détec- 
tion d’un signal constant, par rapport à l'algorithme (2.75) qui 
est optimal pour la détection d’un signal constant (positif) noyé 
dans un bruit normal additif de variance inconnue. 

Avec les données de la table 2.1 et du paragraphe 2.3.6 et compte 
tenu de la formule (1.53”) on peut facilement établir les valeurs 
du coefficient d’efficacité asymptotique relative de l'algorithme 
signe-rang (2.91) par rapport à l'algorithme de signe (2.47) (table 2.2). 

Remarquons que pour la distribution laplacienne du bruit 
l'algorithme signe-rang est moins efficace que l'algorithme de signe. 

Pour certaines classes de distributions il est possible d’augmen- 
ter l'efficacité du détecteur en utilisant des fonctions plus compli- 
quées des statistiques signe-rang. Citons à titre d'exemple l'aigo- 
rithme signe-rang de Van der Waerden en vertu duquel la décision 
sur la présence d’un signal constant (positif) dans un bruit additif 
à distribution symétrique est prise dans le cas où 


S F- (+ _ + )u(r)>0, (2.103) 


1-1 


où F-1 (x) est la fonction inverse de l'intégrale de Laplace. 


Table 2.2 

Distribution du bruit p 

Normale 1,5 

Laplacienne 0,75 
Uniforme 3 
Sinusoïdale 1e phase aléatoire 00 

w, (x) = TE [1—22/(502)], [rl <oV5 1,94 


Jusqu'à présent nous avons envisagé des détecteurs signe-rang 
unilatéraux pour un signal constant a priori positif (a => 0). Il est 
évident que pour la détection d’un signal constant de signe quel- 
conque (a Æ O) il faut utiliser des algorithmes signe-rang bila- 
téraux à deux seuils. Il n’est pas nécessaire d'exposer la théorie de 
ces algorithmes car le lecteur obtiendra facilement les résultats 
correspondants par analogie avec la théorie des détecteurs de signe 
bilatéraux exposée ci-dessus. 
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2.4.3. Algorithmes signe-rang mixtes de détection d'un signal. 
L'augmentation de l'efficacité du détecteur signe-rang (2.92) par 
rapport à celle du détecteur de signe (2.47) est obtenue au prix d’un 
accroissement notable du nombre d'operations qui, dans l’algorith- 
me (2.92), est proportionnel à n°, et dans l’algorithme (2.47), à n. 
Il est possible cependant de diminuer notablement le nombre d’opé- 
rations du détecteur sans perdre en efficacité. 

Supposons que l’on observe un échantillon indépendant de tail- 
le n. Formons r groupes de valeurs échantillonnées à raison de m 
valeurs par groupe (mr = n): 

premier grOUPE: Ty, Toy + + +) Tm; 

second grOUPeE: Zm+ir + + «y Tom 


groupe L': T(i-pom+is + + + Tim 
BTOUPE T° Lér-pm+1s + + 1 Trm- 


Composons pour chacun de ces groupes d'éléments echantillon- 
nés des statistiques signe-rang du type (2.92) 


Sn (= 2 2 u (timts + Zimtn), j=0, ...,r—1. (2.104) 


La décision sur la présence d’un signal constant noyé dans un 
bruit additif de distribution symétrique est prise si 


Ti 
> SP (x) >C. (2.105) 
i=0 


L’algorithme de détection (2.105) est appelé algorithme signe-rang 
mixte. Le nombre d'opérations qu’entraîne le calcul de chacune 
des statistiques (2.104) étant proportionnel à m*, le total des opéra- 
tions de l'algorithme (2.105) est proportionnel à rm* — nm. Il est 
évident que pour m < n le nombre d’opérations nécessaires à la 
réalisation de l'algorithme (2.105) sera r fois inférieur à celui de 
l'algorithme (2.92). Le schéma de réalisation d’un algorithme signe- 
rang pour m — 3 est donné sur la figure 2.4. Bien qu’à première 
vue ce schéma soit plus compliqué que celui de la figure 2.3, on 
obtient, en réalité, une simplification grâce à un dispositif plus 
simple de mise en rang. 

Les considérations suivantes permettent de supposer que l'ef- 
ficacité de l'algorithme (2.105) est voisine de celle de l’algorith- 
me (2.92) même pour m relativement faible. En effet, pour des 
échantillons indépendants, pour m = 10 déjà la distribution de 
chacune des statistiques (2.104) diffère peu de la loi normale. Donc 
la sommation ultérieure des statistiques SG), à — 0, ..., r — 1, 
ne doit pas entraîner des pertes notables, car pour des statistiques 
normales le traitement linéaire est le meilleur. 
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: Remarquons que pour m — À l’algorithme signe-rang mixte 
coïncide avec l'algorithme de signe, et pour m—-» avec l'algorithme 
signe-rang. 


X3ie1 


Xji2 


Xgio3 


Fig. 2.4. Schéma fonctionnel du déteeteur signe-rang mixte d’un signal constant. 


2.4.4. Efficacité relative de l'algorithme signe-rang mixte. Ecri- 
vons tout d’abord les expressions des valeurs moyennes des statisti- 
ques SG) pour l'hypothèse Æ et pour l'alternative K. En utilisant 
(2.93) et (2.95), (2.97) et (2.97”), on obtient 


m{S® (x)| H}=m (m+1)/4, (2.106) 
ms {5 (x) | K}=5+ mawi (0) + 


+200 (5-2 [ w° (z) dz)+o(a), (2.107) 


où æ, (z) est la densité de probabilité du bruit. 
La variance de la statistique Si) (x) pour l'hypothèse Æ est 
en vertu de (2.94). égale à 


M,{S% (x)| H}=m (m+1) (2m+1)/24. (2.108) 
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(2.105) fournit immédiatement 


r—i 
m4 > s® (x) 4} = MER 2 n (m +1)/4, (2.109) 
i=0 


r—1 
mA SP (IA) = + nan (0) — 
i=0 


… n(m—1) 


(5-2 À ue) de) +o(a)= 


- 249 + na [us (0) + (m— 1) Ï wi (2) dz]+e(a), (2.140) 


M, (3 S® (x)| A} = n (m +1) (2m + 1)/24, (2.111) 
d’où on obtient (voir (1.70')) 
[uw (0)+(m—1) uw? (3) 47]? 


(m1) @m+1)/24 


Maintenant il est facile d’obtenir l'expression du coefficient 
d'efficacité asymptotique relative de l'algorithme signe-rang mixte 
de détection d’un signal constant par rapport à l’algorithme linéaire 
(2.62) (voir (2.69”)) 


Ei == (2.112) 


24 [us (0)+(m—1) À 5 (:) &]* 


(a +1) (2m+1) 
où 0° est la variance du bruit. 

La formule (2.69) de l'efficacité de l'algorithme de signe est un 
cas particulier de (2.113) pour m = 1. Pour m —— on obtient 
à partir de (2.113) la formule (2.102) pour l'algorithme signe-rang. 

En vertu de (2.113) on a: 

— pour un bruit à distribution normale 


_ 6(m—1+ y 2)° 
= Um D Em ED anis 
— pour un bruit à distribution de Laplace 


p = O2, (2.113) 


3 
Pt: (2.115) 
— pour un bruit à distribution uniforme 
ET 9 4146 
PT m+ 1) Em+1 ee 
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Dans la table comparative 2.3 des efficacités de l'algorithme 
mixte pour m — 10 et des algorithmes de signe et de signe-rang 
sont indiquées les valeurs des coefficients d'efficacité asymptotique 
relative de ces algorithmes par rapport à l’algorithme linéaire ainsi 
que l’ordre de grandeur du nombre d'opérations élémentaires pour 
chacun de ces algorithmes pour un échantillon de taille r — 10%. 


Table 2.3 
p 
Distribution Nombre 
Type d'algorithme d'opérations 
normale | laplacienne uniforme 

De signe 0,64 2 0.33 105 
Mixte (m1 -— 10) 0,91 1,97 0,88 101 
Signe-rang 0,95 1,9 1 105 


2.4.5. Détecteurs signe-rang d'un signal déterministe quelconque. 
Pour la détection d’un signal déterministe quelconque Às (é), À > 0, 
noyé dans un bruit additif stationnaire de moyenne nulle et de 
distribution symétrique on peut utiliser une modification de l’algo- 
rithme (2.91). Notamment, on prend la décision sur la présence du 
signal dans le cas où 


Sh = Ÿ a Riu(zx)ZC, (2.117) 


où s —Ss(t;), i — 1, ..., n. L’inégalité (2.117) peut également 
s'écrire sous la forme (voir (2.91”) et (2.92)) 


n n 


(2 =+ D SR sen ++ D aRt>C (2.118) 
i={ = 1 
ou 
S, (x)= D ss D'u(xitz)>C. (2.118') 
i=1 jJ=i 


En vertu du théorème de la limite centrale la statistique S, (x) 
dans le cas envisagé est asymptotiquement normale pour nr —> 0 
à condition que 


lim max s?(é;)/ ) Sa (ti) = 0. (2.149) 
ñn +0 1<i<n 
Pour les signaux utilisés dans la pratique cette condition est 
toujours vérifiée. Calculons la valeur moyenne et la variance de 
la statistique S, (x). 
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Pour l'hypothèse H (il n’y a pas de signal) on obtient à partir 
de (2.118) 


ma {Sn (1 4}= + D sim {Rt= LS s: D kP(RI == 
i—=1 


== À 


k- 
4 LU { n LL 
n+ 
=7 Às a Zk)j= Xs 
i=1{ h=1 i=!{ 
ou 


ms {Sn (x) 4}= CTI 0, (2.120) 


dun + D s(ti) (2.120) 
1=| 


est la composante constante du signal. 
Pour nr ÿ 1 on a en vertu de (2.120) 


mi (Sn (x) | 4} + an. (2.121) 


Le carré moyen de la statistique S, (x) pour l'hypothèse 77 est 
égal à (voir (51) 


mi {SA (x)|4}=+ m {5 S sis; (RŸ RS sgn xi sgn x; + 


i==1 J=1 
+ RÈRY sen zi+ RÈR sen z,+ RYRÿ) } = 


LL 


= D sm{RE}+E S S'ssm{RtRi}= 


i=1 i=1 J=1 


215 4(L5S e)+L(Somtrn), 


i=! =! i=1 


d’où l’on tire la variance M, de la statistique S, (x) pour l'hypothè- 
se H 
M2 {Sn (x) H}=m4{S C1} 1m (8, (x)|H}P = 


_ @m+1 EE > + 


ou 
M(Sn (x) 4}= RERO w, (2.122) 
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« 


ou 


Wan=— D s2(t). (2.122) 
i={ 
Pour n © 1 (2.122) entraine 
Ma{Sn (14) ++ Win: (2.123) 


En utilisant (2.121), (2.123) et le fait que la statistique S, (x) 
est asymptotiquement normale, on trouve la valeur du seuil € 
dans l’algorithme (2.117) pour nr D 1 (voir (2.100)) 


ce (ay +), (2.124) 


où x, est l’a-quantile de la loi normale. 

Pour trouver la valeur moyenne de la statistique S, (x) pour 
l'alternative Æ on se réfère à la formule (2.118”). Tout comme pour 
(2.95), on a 


m1 {Sn (x) | K} = 2 sP{x20|4}+ 2 À. aP{ritz;>0]|K)}. 


(2.125) 


Et d'une manière analogue à (2.97) et (2.97’), dans le cas envisagé 
on a 


P{>0|K}=— + Asus (0) +0 (à), (2.126) 


P{x+z;,>0|K}=1— { Fi (y— si —s;) w; (y) dy +o (À) = 


=++A(s+s;) | w(y) dy +e(n. (2.126) 


En substituant (2.126), (2.126”) dans (2.125), on obtient pour l’al- 
ternative X 


A4 {Sa (x) | Æ} A — Asn — RW: (0) AW sn + 7 2 Asn + 


(.e) 


+an2 | wi(y) dy É+: (1— 2) #+ 


— 00 1=1 


++S > sis, | +0 (à). (2.127) 


i=1 J=i+1 
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Etant donné que 


SE nc 
Ée n 
lim D >, SiS=0;—W;, ay =liman, 
ii Jei+i 
on obtient à partir de (2.127) pour n D 1 et À Vnr = const 
nas 21 ,2 C 2 
ma {Sn (x) |A} +nihai | wi(y) dy.  :(2.128) 
La probabilité de perte du signal pour r © 1 est égale à 
Lin , ( 
B=F(ze—y “a | wi(w)dy) (2.129) 
ou : 
Fin «À ; 
sus=ce— M ai | wi (y) dy. (2.129') 


—o 


En remarquant que (2.129’) ne diffère de (2.101) que par le 
facteur a%/V W, dans le second terme du membre de droite, on trouve 
avec (2. 87) et (2. 102) l'expression suivante pour le coefficient d’ef- 
ficacité asymptotique relative de l'algorithme signe-rang (2.117) 
par rapport à l’algorithme linéaire (2.86) 


©œ 


p=1202- (| wi (ay). (2.130) 


Pour a, = 0, i.e. lorsque le signal n’a pas de composante cons- 
tante, le coefficient d'efficacité asymptotique relative de l'algo- 
rithme signe-rang s’annule. 

Pour un signal constant s (t) = 1 le rapport aÿ/W, — 1, et la 
formule (2.130) coïncide avec (2.102). Pour une suite périodique 
d’impulsions non modulées de durée + et de période 7 ce rapport 
est égal à (t/T}° et pour une modulation d'amplitude de taux m, on a 


aUW,=(x/T} (1 + m2/2) 1. 


2.4.6. Algorithmes de rang de détection des signaux à bande étroi- 
te. Le fait que les signaux haute fréquence à bande étroite ne con- 
tiennent pas de composante constante rend l’utilisation des algo- 
rithmes signe-rang pour un traitement prédétecteur des observations 
absolument inefficace, car par. rapport à l'algorithme linéaire le 
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coefficient d'efficacité asymptotique relative de ces algorithmes, 
comme nous l'avons vu plus haut, est nul pour une composante 
constante nulle. Les algorithmes de rang de détection non paramétri- 
que des signaux radio-électriques à bande étroite (sans composante 
constante) sont plus efficaces. Les algorithmes de rang peuvent 
évidemment être utilisés également pour la détection des signaux 
contenant une composante constante. Cependant, comme nous allons 
le montrer plus loin, ils sont moins efficaces que les algorithmes 
signe-rang correspondants. 

Soient Às (£), À >> 0, un signal déterministe, et x — (x,, . .., z,) 
l'échantillon indépendant d'observations appartenant soit à un bruit 


Fig. 2.5. Schéma fonctionnel du détecteur de rang d’un signal déterministe. 


stationnaire (dont la densité de probabilité n’est pas obligatoire- 
ment symétrique), soit à la somme d’un signal déterministe et d'un 
bruit. La règle de choix d’une décision, basée sur la statistique 
linéaire de rang, se formule comme suit: le signal est présent si 


Th (x) —_ 2 SiŸ (R)ZC, (2.131) 
où s = 5s(t;); R; est le rang de x;, à — 1, ..., n, et vw (k) une 
certaine fonction de l'argument entier #4 — 1, ..., n. Le schéma 
de l’algorithme de rang utilisé pour la détection d’un signal déter- 
ministe est donné sur la figure 2.5. 

Les exemples suivants sont des cas particuliers de l’algorithme 
général (2.131): 
l'algorithme à médiane 


D Si SN (ri ) C0: (2.132) 
1—1{ 
l'algorithme de Wilcoxon *) 


n 


» SRiZC ; (2.133) 


i1=1{ 


*) L’algorithme de Wilcoxon à échantillon double envisagé dans 2.1.7 
est un cas particulier de (2.133) pour 


nH=A1;i<m a—=0,.i=m+i, ces Ne 
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l'algorithme de Van der Waerden 


n 


Dart(-4)>c, (2.134) 


i= 1 


où Ft (x) est la fonction inverse de l'intégrale de Laplace. 

Déterminons la valeur moyenne et la variance de la statistique 
T, (x) pour l'hypothèse Æ (il n’y a pas de signal). Comme pour un 
bruit stationnaire la distribution des rangs est uniforme, on a pour 
l'hypothèse H 


n n 


mt, (x) | 4}= D sim {p(R}= + Ds D D) 


i= | i=! R=1! 
ou 
mi (Ta (x) | H} = sn Ÿn (2.135) 
où 
an = D Su = D VU. (2.136) 


11 k—1 
La variance de la statistique T, pour l'hypothèse Æ7 est 
Ma{Tn (x) | H}= ms {Ti (x) 14} — {mi Ta I H}P = nb, (2.137) 


où 


Bin = D (s—a = Win — dns (2.138) 


Pi —— D [p(A) VE. (2.138) 
k=:1 


Si djn — 0, on a pour l'hypothèse H 
m{Ta(x)|4}=0, M,{T,(x)|H}=n Wÿi. (2.139) 


Si la condition (2.119) est vérifiée, la statistique T, est asympto- 
tiquement normale et le seuil C dans l’algorithme (2.131) est lié 
à la probabilité de fausse alarme «& par la relation suivante pour 


n à 1 
C= za (nb) + nasnŸ,. (2.140) 


2.4.7. Coefficient d'efficacité asymptotique relative de l’algorith- 
me de Wilcoxon. Le calcul de la valeur moyenne et de la variance 
de la statistique T, pour l’alternative À avec une fonction Ÿ quel- 
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conque est un problème ardu *). Nous allons nous limiter à l’algo- 
rithme linéaire de rang de Wilcoxon (2.133); écrivons-le sous la 
forme (voir (2.41)) 


Er 


T, m=Y Si S u(ti—zx;) = + D D 
j==1 


iz 1 J=1 i=1 j 


I 


Calculons la valeur moyenne de sgn (x; — x;) pour l'alternative X: 
m{sgn(zi—zx;)| K}=1—2P{xi-x, <0|K}— 


219 | Fi(z— si) wi (2—Às) dz = 


—œo 


(2 | Fi(+hs;— si) wi(z) dz, (2.141) 


où w, (2), F, (z) sont respectivement la densité de probabilité (non 
obligatoirement symétrique) et la fonction de répartition d’un 
bruit stationnaire additif. En développant F, (z + Às) en une série 
suivant les puissances de À, on obtient: 


m{sen(xi—z;)| K}= 2, (si—s)) | w?(z)dz2+o(À). (2.142) 


(2.142) permet de trouver la valeur moyenne de la statistique T, 
pour l'alternative K (n D 4, À Vnr = const), soit 


ms {Ta (x)| K}= a] wi (sde SD 


— i==1 J=1 
O0 


= Àn? | wi (2) dz (Win — din) + —2— eu Dee , (2.143) 


Ecrivons la probabilité de perte de signal avec l'algorithme 
(2.133) **), ayant en vue que la statistique T, est asymptotiquement 


22) *) A cet effet on peut utiliser le théorème de Tchernov-Savage (voir {5, 21, 


**) Il est facile de montrer que pour n © 1, À Vn = const 
Ma {Tn 1 H)= Ma {Tn IA} — n%02/12 
(voir (2.137) pour 14 (k) = k). 


2.4] ALGORITHMES DE RANG 97 


normale pour n > 1: 


[ss] 


2 (1 
CR A (Win—ai)n? | w(:) ds 
2 ; 9 
” faoel ein 
bon V'n3/12 = 
et comme dans le cas envisagé en vertu de (2.140) on a 
C= robsn Vn#/12+ n?a,,/2, (2.145) 
donc 
218 = Ta — ben V Tr | uw (z) dz. (2.146) 


Il n’est pas difficile d'écrire maintenant le coefficient d'’effica- 
cité asymptotique relative de l’algorithme de rang de Wilcoxon (2.133) 
par rapport à l'algorithme linéaire (2.86) 


p= ( ( uw (2) di)", (2.147) 


—-œ 
où o* est la variance du bruit b, — lim b... 


n—0 
Si la composante constante du signal est nulle, on a bi — W, 
et à partir de (2.147) on trouve 


p= 120? | | w (z) dz). (2.148) 

Le rapport du coefficient (2.147) au coefficient (2.148) donne 

le coefficient d'efficacité asymptotique relative de l’algorithme de 
rang (2.133) pour la détection du signal s (t) par rapport à l’algorith- 
me (2.133) utilisé pour la détection du même signal centré (a, — 0): 


p=bUW,=1—a/W,. (2.148”) 


Par conséquent, l'efficacité de l'algorithme de rang (2.133) uti- 
lisé pour la détection d’un signal non centré diminue par rapport 
au Cas d'un signal centré d’une grandeur égale au rapport du carré 
de la composante constante à la puissance du signal. Il est évident 
que ai < W, (car b5 >0, avec b, — O0 pour un signal constant 
s(t) = a). 

Comparons enfin l’alcorithme de rang (2.133) avec l’algorithme 
signe-rang (2.117). En vertu de (2.130) et (2.147), le coefficient 
d'efficacité asymptotique relative de l'algorithme (2.133) par 
rapport à l'algorithme (2.117) est égal à 

p=bWlai= + (2 —1). (2.148) 


aÿ \ ai 


7—-0165 
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En vertu de (2.148) on a p —+ © pour a, 0, ce qui correspond 
à l'efficacité nulle signalée plus haut de l'algorithme signe-rang 
lors de la détection d’un signal sans composante constante. Au con- 
traire, pour ai —+ W, l'efficacité de l’algorithme de rang par rapport 
à l’alorithme signe-rang tend vers zéro. Pour la valeur limite du 
rapport a5/W. — 0,62 on a (voir (2.148”)) o = 1, i.e. ces deux algo- 
rithmes ont même efficacité. 

Ainsi, pour a5W, << 0,62 la détection d’un signal déterministe 
est plus sûre avec un algorithme de rang, et pour af; W. > 0,62 
c’est un algorithme signe-rang qui est plus efficace. Cependant, 
dans le cas d’un signal centré, l'algorithme de Wilcoxon 


à (si—a,) R:>C (2.149) 
1= { 


est préférable à l'algorithme signe-rang (2.117), le coefficient d'’ef 
ficacité asymptotique relative du premier par rapport au second 
calculé à l’aide de (2.130) et (2.148) étant égal à (W./ai) > 1. 


2.4.8. Algorithme de rang simplifié de détection des signaux. 
Comme nous l’avons noté dans 2.4.3, pour réduire le nombre d'opé- 
rations liées à la mise en rang d’un échantillon de taille importante 


Fig. 2.6. Schéma fonctionnel d'un détecteur de rang simple. 


on peut utiliser les statistiques mixtes, en divisant l'échantillon 
initial en groupes et en procédant à la mise en rang dans chacun des 
groupes. Cet artifice peut également être appliqué aux algorithmes 
de rang du paragraphe précédent. 

Voyons encore une méthode de réduction du nombre d'opéra- 
tions dans un algorithme de rang non paramétrique sur l'exemple 
de l'algorithme de Wilcoxon (2.141). Un algorithme de rang très 
simple de détection d’un signal déterministe proposé dans [13] 
impose la comparaison avec un seuil de la somme 


n-1! 
À Sin sgn (a — 21) Ca. (2.150) 


L’algorithme (2.150) est schématisé par la figure 2.6. Le dispo- 
sitif réalisant cet algorithme est obtenu à partir du système usuel 
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limiteur parfait — filtre à l'entrée duquel on amène non pas les 
observations mais la différence des deux lectures succéssives. Il est 
clair qu'une telle simplification entraîne une diminution de l'ef- 
ficacité de l'algorithme (2.150) par rapport à (2.141). 

Pour l'hypothèse HA (il n'y a pas de signal), en opérant sur un 
échantillon indépendant appartenant à la distribution d’un bruit 
stationnaire, on trouve 

n— | n—! 


m [2 Sit1 SEN (Titi — Ti) 2 Siam {S9n (tir —xi)} = 0, (2.151) 


n—! n—-in-i 


M,(Z suisgn(ain—2)}= 2 2 sims X 
= 1= PÈRE 


X ma {Sn (Zi+s — Ti) Sn (ty — r;)} = 
n-.f n—Î 


E 2 Si+1 + 2 2 Si+1Si+oM 1 {SGN (Tito — Lits) SE (ris — xi)}. (2.151°) 


Pour l'alternative Æ (le signal est présent), en utilisant (2.142) 
on obtient pour nr D 1, À Vn = const 


n—{ oo n—! 


m: { >», Si+i SEN (ai 2) } = 2À | w® (z) az > Si+y (Si+i — Si). (2.152) 
i= | - © i= 1 
Lorsque la condition (2.119) est vérifiée, la statistique dans (2.150) 
est asymptotiquement normale. Connaissant la moyenne et la 
variance pour l'hypothèse et pour l'alternative (formules (2.151), 
(2.151'), (2.152)), on peut estimer la perte en efficacité de l’algo- 
rithme (2.150) par rapport à (2.141) lors de la détection d’un signal 
déterministe (à composante constante nulle). On se convainc aisé- 
ment que le coefficient d'efficacité asymptotique relative de l’algo- 
rithme de rang simplifié (2.150) par rapport à l’algorithme de rang 
(2.141) (voir (2.148)) est égal à 
1+ À.) +. 
p = FR : (2.193) 
où 


R,.= 


n— T 
| e { | Q | : ? 
w, lim se > Sig mr | s(t+A)s(t) dt, (2.153 ) 
i=Î 0 
n— { 


2 , { 
Ris = LUE lim ES > Si+1Si+2mi {sgn (Zi+s — Tito) Ssgn (zi+1 ui zi)} Te 


$ n—0o0 i=! 
T 
= lim + | s(6+ A)s(#+ 24) m (sgn [x (#4 A)— 2 (+ 2A)] x 
Le 


x sgn{z(t+A)—z(t)]}dt, (8153 ÿ 
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A étant l'intervalle de quantification des observations dans le 
temps; x (t) est une réalisation du bruit. 

Dans le cas où les algorithmes de rang (2.141) et (2.150) sont 
utilisés pour la détection d’un signal noyé dans un bruit normal 
additif de variance 0°, on obtient R., — “/,R., car 


M3 {ziss — xi} = 20°, 
= M {(Tits — Tito) (Tiss — 2i)}/ 207 = mi {x i41}/207 — 


et donc 
2 RE 1 
M {Sgn (Ti+i — Zis2) SSN (Ti+1 — Ti)} = arcsin =, 
Ainsi, dans le cas d’un bruit normal additif le coefficient d’effica- 
cité asymptotique relative de l'algorithme (2.150) par rapport 
à l'algorithme (2.141) est donné par 


p=t—2r»/[3(1—-28R,)], [RI<1, (159 


par conséquent, p< 4/5, c'est-à-dire que la perte en efficacité est 
toujours supérieure à 20 %. La valeur maximale du coefficient p 
correspond à À, = —1 et la valeur minimale p = 0 à R, = 1. 

On conçoit bien qu'un algorithme de rang à canaux multiples 
utilisant les éléments de k<n — 1 diagonales de la matrice 
[sgn (x; — x;)] au lieu d’une est plus efficace. La statistique résul- 
tante s'obtient par sommation des statistiques de tous les canaux. 
Pour 4 — n — 1 on obtient l'algorithme utilisant les statistiques 
mixtes qu'on forme à partir de tous les éléments de l'échantillon 
des observations. 


2.5. ALGORITHMES NON PARAMÉTRIQUES DE DÉTECTION 
DES SIGNAUX STOCHASTIQUES NOYÉS DANS 
DES BRUITS INDÉPENDANTS 


2.5.1. Système optimal à deux canaux de détection d'un signal 
normal noyé dans un bruit normal. Pour la détection d'un signal 
stochastique (fluctuant) noyé dans des bruits additifs indépendants 
on utilise parfois un système à deux canaux (réception en diversité). 
En l'absence de signal, dans chacun des canaux seuls les bruits 
sont présents et les processus observés sont indépendants. Lorsque 
les signaux apparaissent dans les deux canaux, une corrélation 
statistique est observée entre ces processus aléatoires. 

Considérons tout d’abord le problème de la détection d’un signal 
normal noyé dans des bruits normaux additifs. Supposons que les 
valeurs moyennes du signal et du bruit sont nulles et que les varian- 
ces du signal et du bruit sont données et égales respectivement 
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à cet o°. Soient zx (t) et y (t) les processus observés dans le premier 
et le second canal; en l’absence de signal (hypothèse H) on a 


M {x (t)} = M {y (t)} = 0°, (2.155) 
Rry = mix (t) y(t)}/o2=0 (2.155°) 
et si le signal est présent (alternative X) 
M,{z(t)}= M, {y (t)}=02+ 056, (2.156) 
(£) y (4 $ , 
Rey = OO) LG Dr. (2.156') 


Le logarithme du rapport de vraisemblance pour une observation 
est égal à 


w,(z, YA) z®— Drry + y? 


Inl(x, y)=in w, (z,Y|H) — 2(02+02)(1—r°) F 


+ Lin (tr EE) 05 (z+y)° 
2 


20° 0 J  2[(0°+02)2—01) 


+ In [(1 — r2) (02 + 0£)/02]. 


Pour nr observations indépendantes dans chacun des canaux on a 


MEL 23m Ds 0) 


an 
a 
UE 


2 [(02+ 02) —0;] > (zi + yi)—— In{({—7r2) (02+0f)/02]. (2.157) 
S 3 | FA 


La relation (2.157) donne la règle optimale d’après le critère de 
Neyman-Pearson de détection du signal: le signal est présent si 


D (ri+y)>C, (2.158) 
1 
et il n’y a pas de signal si c’est l'inégalité inverse de (2.158) qui 
est vérifiée. Le schéma du détecteur réalisant l'algorithme (2.158) 
est donné sur la figure 2.7. 


Fig. 2.7. Détecteur optimal à deux canaux d’un signal aléatoire normal noyé 
dans un bruit normal additif. 
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Pour l’hypothèse H la somme des grandeurs aléatoires dans (2.158) 
est asymptotiquement normale de paramètres 


m (2 (x: + y)? | H) = 2no?, (2.159) 
M, | 2 (ri + yi)?| H} = 8not. (2.159) 


Pour nr © 1 et une probabilité donnée de fausse alarme «&, on trouve 
à partir de (2.159), (2.159’) la valeur du seuil C 


C = 0° VBn (x, + Vn/2). (2.160) 


Pour l’alternative X la somme dans (2.158) est également asymp- 
totiquement normale, avec 


ms (2 (a+ vi)?| ) = 2n (02+ 205), (2.161) 
i=1 

et pour un signal faible (0% & o*) on a 
M (2 (zi+y)?|] + M; pa (xi+uy)|H). (2.161) 
Compte tenu de (2.160) on trouve la probabilité de perte du signal 
B=—F(xe—V 2n 0/0?) (2.162) 

ou 

Ti-B = To — V 2n 0/02. (2.162") 
Remarquons que lorsque l’on utilise au lieu du détecteur de la 


figure 2.7 le corrélateur (fig. 2.8) réalisant l'algorithme 


D xy>C, (2.163) 
i=1 
la probabilité 1 — 6 de détection correcte d’un signal faible pour 
n ÿ 1 et « donné se calcule par la formule *) 


Lip = Ta — V'n 0£;0?. (2.164) 


En comparant avec (2.162”) on voit que la grandeur x,_4 est dans 
ce cas de quelque 40 % supérieure que pour l'algorithme optimal 
(2.158). 

Lorsque l’on ne connaît pas la valeur moyenne ni la variance 
du signal et du bruit normaux, le problème envisagé de la détection 


*) Avec C=r,0°l/n et B = F[(C — no. (a° l/n)l. 
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du signal revient à la vérification de l'hypothèse 7 — O0 contre 
l'alternative r >> O0 pour des valeurs quelconques des moyennes et 
des variances du signal et du bruit. La règle optimale non biaisée 
de la détection impose dans ce cas la comparaison avec un seuil 


Fig. 2.8. Schéma fonctionnel d'un corrélateur. 


de l'estimation du maximum de vraisemblance du coefficient de 
corrélation (voir [1], & 4.2) 


r= Da) @i—2 2 2 Girl, (2165) 


On peut montrer (voir [1], théorème 4.2.6) que la statistique r 
est asymptotiquement normale de moyenne r et de variance 
(4 — r°)/n. Dans ce cas la valeur du seuil C dans l’algorithme 


r>C (2.166) 
pour rz ÿ 1 et une probabilité donnée de fausse alarme est 
C=zx./Vn, (2.167) 


et on trouve la probabilité de perte du signal pour r* & 1 (signal 
faible) à partir de la relation des quantiles de la distribution nor- 
male : 


TIB=Te—rVn. (2.168) 


Il est évident que pour x — y = 0 et des variances données, (2.165) 
devient (2.163), et (2.168) s’identifie à (2.164). 


2.5.2. Corrélateur de coïncidence des polarités. Supposons que les 
densités de probabilité du signal et du bruit sont données par des 
fonctions symétriques par rapport à l’origine des coordonnées et 
que l’on connaît les variances du signal et du bruit et les moments 
centrés quatre de la distribution du bruit. Désignons respective- 
ment par wi (x), Wis (x), wi, (x) les densités de probabilité des 


404 MÊTHODES NON PARAMÉTRIQUES DE SYNTHÊSE STATISTIQUE [CH. 2 
ER Re RE 


bruits dans le premier et le second canal et la densité de probabilité 
du signal, par 0°, 0°, 0% les variances des bruits et du signal et 
par Mu, M, les moments centrés quatre des bruits. Le problème 
de la détection d’un signal stochastique revient à vérifier l'hypothèse 


Fig. 2.9. Corrélateur de coïncidence des polarités. 


H selon laquelle les processus x (t) et y (t) observés dans le canal 
sont indépendants, c’est-à-dire que leur distribution mutuelle (aux 
mêmes instants) est 


we (x, y|A)= wi (x) wi (y), (2.169) 


contre l'alternative X que la distribution mutuelle des processus 
est *) 


uo(z, ylA)= À wu(r—2)wi(y—2)uw,(z)dz. (2.170) 


Pour la détection d’un signal stochastique noyé dans des bruits 
additifs indépendants (pour des suppositions mentionnées) nous 
allons utiliser l'algorithme de signe suivant: la décision que le 
signal est présent (l'hypothèse F7 est rejetée) est prise si 

n 
D sen risgn y >C1. (2.171) 
i= 1 

On suppose évidemment que les composantes des vecteurs des 
observations x et y sont indépendantes. 

L'algorithme (2.171) régit le fonctionnement du corrélateur de 
coïncidence des polarités (appelé parfois corrélateur des polarités) 
(fig. 2.9). 

Compte tenu de la relation existant entre les fonctions sgn x 
et u (x) (voir (2.39)) on peut écrire l’algorithme (2.171) comme suit: 


n 


D u(xiyi) >C. (2.172) 


i= 1 


*) La fonction sous l'intégrale (2.170) représente la densité de probabilité 
mutuelle (tridimensionnelle) des bruits additifs indépendants et du signal. 
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La somme dans (2.172), égale au nombre de coïncidences des 
signes des observations dans les canaux, suit la loi binomiale de 
paramètres (n, !/,) pour l'hypothèse FH et de paramètres (#7, p) pour 
l'alternative X, de plus *) 


p=P{z>0, y>0}+P{r<0, y<0}— 


= | Fi (2) Fo (2) w4, (2) dz + | M—Fu(alli— Fu (lus, (z) d2= 


O0 


=1+2 | LFu (+ ][ Fit) + Juris (9 d3. (2173) 


— 00 


Avec l'algorithme (2.172) la probabilité de fausse alarme est. 


a=P{Su(ey)>C|A}= S (7 )(@/2). (2174) 


i== h=(C]+1 


La formule (2.174), qui est au fond analogue à (2.48), fournit 
une valeur du seuil C (dans (2.172)) indépendante de la distribution 
pour des distributions symétriques quelconques des bruits pour une 
probabilité donnée de fausse alarme. Autrement dit, le seuil établi 
dans le corrélateur polaire coïncide avec le seuil réglé dans le détec- 
teur de signe. 

Ainsi, dans les hypothèses que nous avons faites, le corrélateur 
de coïncidence des probabilités est un détecteur non paramétrique 
d'un signal stochastique noyé dans des bruits additifs indépendants. 

Pour un échantillon de taille importante la distribution de la 
somme dans (2.172) tend vers une loi normale de moyenne np et de 
variance 72p (1 — p), avec p = !/, pour l'hypothèse A et p > !/, 
pour l’alternative Æ, cette distribution étant donnée par (2.173). 
Les probabilités de fausse alarme et de perte du signal sont dans 
ce cas données par les formules (2.50) et (2.51), et la relation entre 
les quantiles z, et z,-4 par la formule (2.52) où l’on porte p calculé 
d'après (2.173). 


2.5.3. Efficacité relative du corrélateur de coïncidences des pola- 
rités. Comparons le corrélateur de coïncidences des polarités avec 
le détecteur d’un signal stochastique, optimal pour des distribu- 
tions normales du signal et du bruit (voir (2.158)). Supposons que 
l'algorithme (2.158) est utilisé pour des distributions symétriques 
quelconques du signal et des bruits stationnaires additifs indépen- 


*) Les paramètres de la loi binomiale sont: le nombre nr d'expériences 
indépendantes dans le schéma de Bernoulli et la probabilité p de réalisaton de 
l'événement dans chaque expérience. 
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dants. Dans ce cas pour l'hypothèse Æ (il n’y a pas de signal) on a 


ma | 2 (ci+yi)?| H}) =n(0o°+05), (2.175) 


M2 (2 Gi+yP IA] =n [Mt Mat Goioë— (oï-+ 052] = 
= n (M, + Mi + 40202 — 0! — oi). (2.176) 


Pour l'alternative Æ (le signal est présent) on a 
ma (D (aitu) | K] = n (oï+ oi + 40f), (2.171) 


et la variance pour un signal faible (oi < ©? + 0°) est donnée 
par (2.176). Les grandeurs Mis, Mie, 0, 0%, 05 sont respectivement 
les moments quatre, les variances des bruits et la variance du signal. 

La statistique dans (2.158) est asymptotiquement normale, ses 
paramètres étant donnés par (2.175) à (2.177). Le seuil est mainte- 
nant déterminé pour #7 > 1 et une probabilité donnée de fausse 
alarme par l'égalité 


C= za VrR(Mai+ Mort 40%05—0i—0$)""+n(0i+0i), (2.178) 
et la probabilité de perte du signal se trouve à partir de la relation 
Z1-8= Ta — 402 V 2 (Mis + Mis + 40202 —0t— 0)" 1/7. (2.179) 


Pour des bruits soumis à la distribution normale on a M,, — 
= Mie = M = 30% pour 0° — 0° = 0° et les formules (2.178) et 
(42.179) coïncident avec (2.160) et (2.162) respectivement. 

Pour un signal faible, on obtient à partir de (2.173), compte tenu 
de F2) = 5% +zw;(z) + ..., i = 1,2, 


2p—1—4 | [zwis (0) + ...][2u32 (0) + ...] w1, (z) dz = 


— 4oïw;: (0) w1:(0) + o(o%), (2.180) 

&p(1— p) = 1—0 (05). (2.180") 

En substituant (2.180) et (2.180’) dans (2.67) on obtient dans le cas 

d'utilisation de l'algorithme (2.172) pour n oo et 0 VWn = 
— const: 


Tip = Ta — 40%; (0) w2 (0) Vn. (2.181) 


(2.179) et (2.181) fournissent immédiatement l'expression du 
coefficient d'efficacité relative du corrélateur de coïncidence des 
polarités par rapport au détecteur optimal pour des bruits normale- 
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ment répartis, soit 
p = w?, (0) &%, (0) (M1 + Mis + 40505 — 0, — 0). (2.182) 
Si les distributions des bruits sont normales et de même variance, 


on a 
ur, (0) =, (0) =1/(2702), Mis = Mis = 30% 
et en vertu de (2.182) 
p — 80*/(2no*)* — 2/n° = 0,2, (2.183) 


c'est-à-dire le corrélateur de coïncidence des polarités est bien 
moins efficace que le détecteur optimal d’un signal stochastique. 
Cependant pour des bruits laplaciens (voir (2.72)) on a 


W', (0) — w*?, (0) — À2/4 — 1/(20?), Mi: — M 42 — 6o* 
et à partir de (2.182) on trouve 
p — 140t/(20*)° = 3,5. (2.184) 


Pour des bruits uniformément distribués sur l'intervalle | x | < 
<oV3ona 


w?,(0)=w?,(0)=1/(1202), Mis = Mie = 1901/5 
et 


1904 
P=-onr © 0,03, (2.185) 
c'est-à-dire que dans ce cas l'efficacité du corrélateur de coïncidence 
des polarités est bien plus petite que dans Je cas de l'algorithme 
optimal. 

Enfin pour un bruit sinusoïdal de phase aléatoire (voir (2.74)) 
on a 


w?, (0) =u?,(0)—1/(27n202), Mi = Mio = 30/2 
et 
p — 5ot/(2n°0*)° — 5/4n° & 0,01. (2.186) 


Si w1 (0) = 0, c’est-à-dire si la densité de probabilité des bruits 
est nulle à l’origine des coordonnées (distributions symétriques 
multimodales), on a en vertu de (2.182) p — 0. 

En utilisant (2.164) et (2.181) on trouve le coefficient d'’effica- 
cité asymptotique relative du corrélateur de coïncidence des pola- 
rités par rapport au corrélateur ordinaire: 


p = 1Gofu 2 (0) 5, (0). (2.187) 


La relation (2.187) donne pour un bruit à distribution normale 
p = 0,4 et pour un bruit à distribution laplacienne p = 4 
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2.5.4. Corrélateur modifié de coïncidence des polarités. Supposons 
qu'on connaît les quantiles de la distribution du bruit 24, = 
= F1 (q;y), j—=1,..., m. On peut utiliser cette information 
supplémentaire pour améliorer la qualité de l'algorithme (2.171), 
tout comme on l'avait fait dans 2.3.7 pour accroître l'efficacité du 
détecteur de signe. L’algorithme modifié sera 


> : sen (ri/0— 29;) sen (y/0—2,;)2C, (2.188) 
Et 721 
où 0° est la variance du bruit. 

Nous appellerons corrélateur modifié de coïncidence des polarités 
le dispositif réalisant l'algorithme (2.188). Supposant que les bruits 
indépendants suivent une même loi de répartition, on peut montrer 
que le coefficient d’efficacité asymptotique relative de l'algorithme 
(2.188) par rapport à l’algorithme (2.158), optimal pour des bruits 
additifs normalement répartis, est égal à [31] 


p=2(Mi+o) 12 wi(oz)]/ 2 ci, (2.189) 
i<j 


avec 
= {(1 — 295) + (1 — 29) —1}—{(295— 1) (2 — 17, (2.189) 


M, étant le moment centré quatre de la distribution du bruit. 
Dans la table 2.4 sont indiquées les valeurs du coefficient d'’effi- 
cacité asymptotique relative obtenues dans [31] pour le corrélateur 
modifié de coïncidence des polarités par rapport au détecteur opti- 
mal de Neyman-Pearson, ainsi que par rapport au corrélateur de 
coïncidence des polarités (2.172) et au corrélateur ordinaire (2.163). 


Table 2.4 
Détecteur de Corrélateur de coïn- ; 
Distribution Neyman-Pearson cidence des polari tés Corrrlateur ordinaire 
Normale 0,285 1,41 0,57 
de Laplace 3,43 0,98 6,85 


2.5.5. Algorithmes de rang de détection d'un signal stochastique. 
Soient x — (z1, - .., 2h) et y = (y1, - .- ., y) des échantillons des 
observations dans deux canaux, et soient R = (R,, ..., R,) et 

— (Q,, ..., Q,) les vecteurs de rang de ces échantillons. Pour 
vérifier l’ hypothèse H : il n'y a pas de signal (les échantillons x et y 
sont indépendants) contre l'alternative X: le signal est présent 
dans les deux canaux (les échantillons x et y sont liés) on peut uti- 
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liser la règle suivante: on adopte l'alternative Æ si 
n 
SA (x, = 2 RQZC, (2.190) 
1= 


et on la rejette si c’est l’inégalité inverse de (2.190) qui est vérifiée. 

La statistique S, dans (2.190) est appelée coefficient de corréla- 
tion de rang de Spearmen. La valeur moyenne et la variance de cette 
statistique pour l'hypothèse H sont 


Mi {Sn (x, | H} = n(n +1)/4, 
Me {Sn (x, VIA} = n°(n +1) (n — 1)/144. (2.191) 


La statistique S, étant asymptotiquement normale, pour nr ÿ 1 
le seuil dans (2.190) est donné par 


C — (Ta + 3 Vn) n°/°/12, 


où « est la probabilité donnée de fausse alarme et x, l’a-quantile 
de la loi normale. 

L’algorithme utilisant la statistique de Kendall est équivalent 
par son efficacité à l'algorithme (2.190) (voir la table dans A.3.3 em- 
pruntée à [20]) 

n—1 n 
S, (x, y) 2 nn sgn (ti —zx;) sgn (Yi — y;). (2.192) 
Le schéma du détecteur de signaux stochastiques basé sur le calcul 
de la statistique (2.190) est donné sur la figure 2.10. 


Fig. 2.10. Schéma fonctionnel d’un détecteur de rang d’un signal stochastique. 


On peut montrer que pour des bruits normalement répartis les 
coefficients d'efficacité asymptotique relative des algorithmes de 
rang de détection de signaux stochastiques sont égaux à 9/(2r°) = 
= 0,45 par rapport à l’algorithme (2.158), optimal pour des bruits 
normalement répartis, à 2,25 par rapport au corrélateur de coïn- 
cidence des polarités, à 9/x° = 0,91 par rapport au corrélateur 
ordinaire et à 1,6 par rapport au corrélateur modifié de coïncidence 
des polarités (pour trois quantiles donnés de la répartition des 
bruits). 
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Pour calculer la statistique (2.192) il faudra effectuer environ 
n°/2 opérations de comparaison des échantillons observés. On peut 
diminuer notablement le nombre des opérations sans perdre sen- 
siblement en efficacité de l'algorithme de détection, en utilisant 
la statistique mixte (voir 2.4.3) 


r— | | 
Sn (x, = 2 Su (x, y), (2.193) 


* 


ou 


S (x, Y)= à. à. SEN (Lim+j —Lim+k) SEN (Yim+j — Yim+k). (2.194) 
J=1Rk=—) 


Pour des bruits normalement répartis le coefficient d'efficacité 
asymptotique relative du détecteur utilisant une statistique mixte 
de la forme (2.193) par rapport au corrélateur de coïncidence des 
polarités est 


M — eu 

= pr. (2.195) 

Pour m — œ, on a p — 9/4, ce qui correspond au cas de la sta- 

tistique (2.192). Si l’on répartit les échantillons en 10 groupes, 

le nombre d'opérations pour 7 — 100 diminue de 10 fois, et le 

coefficient d'efficacité asymptotique relative p — 81/50 = 1,62, 
soit 72% du coefficient correspondant à la statistique (2.192). 


2.6. ALGORITHME NON PARAMÉTRIQUE DE DÉTECTION 
D'UN SIGNAL EN PRÉSENCE D'UN ÉCHANTILLON 
D'APPRENTISSAGE DU BRUIT 


2.6.1. Position du problème. Revenons au problème de la détec- 
tion du signal constant s ({) = a noyé dans un bruit additif. Dans 2.3.1 
nous avons supposé que la densité de probabilité w, (x | H) — 
— w, (x) du bruit était symétrique par rapport à l’origine des coor- 
données. Ici nous n’avons pas besoin de cette hypothèse. Supposons 
cependant que l'observateur dispose à l’avance d'un échantillon 
indépendant y = (ÿ1, .- .., Yn,) du bruit. Nous dirons que c'est 
un échantillon d'apprentissage. Par rapport à un autre échantillon 
indépendant x = (21, . .., z,) il y a lieu de vérifier l'hypothèse } 
selon laquelle c’est également un échantillon de distribution w, (x) 
contre l'alternative À que c’est un échantillon du mélange du signal 
et du bruit de distribution w, (r — a). Ainsi formulé, le problème 
coïncide avec celui de 2.1.7 où il s'agissait de vérifier l'hypothèse 
relativement à l'appartenance de deux échantillons (d'apprentis- 
sage et observé) à une même distribution. 
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2.6.2. Algorithme optimal de détection dans le cas d’un bruit nor- 
mal additif. Nous allons tout d’abord trouver l'algorithme optimal 
de détection d’un signal constant noyé dans un bruit normal additif 
de moyenne inconnue a, et de puissance moyenne 0* donnée. Autre- 
ment dit, il faut trouver la procédure optimale de vérification de 
l'hypothèse selon laquelle deux échantillons indépendants y et 
x appartiennent à une distribution normale de même moyenne 
a = &, contre l'alternative X que a =£ a,, sous la condition que 
la variance 0° de la distribution normale est donnée *). Supposons 
que a>> as. En utilisant au lieu de la valeur moyenne inconnue a, 

n; 
l'estimation du maximum de vraisemblance à, = LS Yi, Calcu- 

1 

i=1 
lée d’après l'échantillon d'apprentissage y,, . .., y,, on obtient. 
l'algorithme suivant, optimal d’après le critère de Neyman-Pearson : 
pour une probabilité donnée de fausse alarme «&, on décide que 
le signal est présent (l'hypothèse F7 est rejetée) si 


un. / 21 1 | 
T—yYZte0 } ne Fast (2.196) 
* Fe. | _ su A 9 e e 
où z= — Dr y = à et x, est l’a-quantile de la loi normale 


i= 1 
(voir tome II, (1.68) et (1.76)). 

Si la variance du bruit 0° est inconnue, en utilisant l'estimation 
du maximum de vraisemblance établie d’après l’échantillon com- 
posé (y, x) on arrive à l’algorithme suivant (voir tome II, (1.157)) : 


EE Î 1 1,2 
L(X, y)= Elite) 


——— [2 (ri x)? + > (yi y» |} D 


i= 1 


>C. (2.197) 


Pour l’alternative Æ la statistique { (x, ÿ) suit une loi de Student 
non centrée à (7, + 7: — 2) degrés de liberté et d'écart 


ô=(a—a0)/0 (1/n,+1/n,)"": (2.197'} 


Pour l'hypothèse Æ on a ô = O0, ce qui correspond à la distribu- 
tion de Student centrée, donc le seuil C dans (2.197) pour une pro- 
babilité donnée & de fausse alarme coïncide avec l’a-quantile de 
cette distribution, c'est-à-dire C = #.. 


*) C'est un cas particulier du pODIes de Berens-Fisher qui consiste à 
vérifier l'égalité des moyennes de deux distributions normales de variances 
inconnues (voir [12}). 
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Remarquons que la statistique é& (x, y) est asymptotiquement 
1 


équivalente à la statistique (x — n/(o +2) , qui pour une 


nt no 
distribution continue quelconque du bruit est asymptotiquement 
normale de moyenne égale à 6 et de variance unité. 

Si l’alternative Æ est bilatérale, i.e. a a, sans avoir a > &,, 
les égalités (2.196) et (2.197) deviennent des inégalités (voir tome II, 
(1.131) et (1.56)), soit : 


y Dao (+2), (2.198) 
1 ° 
LE NI tar. (2.199) 


2.6.3. Algorithme de Wilcoxon à deux échantillons. Considérons 
maintenant un algorithme non paramétrique de détection d'un 
signal constant noyé dans un bruit additif avec une densité con- 
tinue quelconque w, (x), faisant usage d’un échantillon d’appren- 
tissage du bruit. Cet algorithme utilise la statistique U (x, y), 
égale au nombre total des cas où l'élément de l’échantillon indé- 
pendant observé dépasse l’élément correspondant de l'échantillon 
d'apprentissage indépendant. En vertu de la terminologie adoptée 
dans 2.1.7, la statistique UÙ (x, y) est égale à la somme des inversions 
formées par les éléments de l'échantillon observé avec ceux de 
l'échantillon d'apprentissage, c'est-à-dire 


To 1 


U(x, y) = à 2 (Ti). (2.200) 


i— J— 


La valeur moyenne et la variance de la statistique UÜ (x, y) 
pour l'hypothèse H sont (voir (2.36°)) 


mi {U (x, y) | H} = rin./2, 
M, {U (x, y) | H} = (1/12) [nains (n1 +ne +1) (2.200) 
La distribution de la statistique U (x, y) pour l'hypothèse # 
est symétrique par rapport à la valeur moyenne et ne dépend pas 
de la distribution du bruit w, (x). Supposons que la valeur moyenne 


du bruit est nulle. L’algorithme unilatéral en vertu duquel on prend 
la décision que le signal a > 0 est présent si 


U (x, »2Ci (2.201) 
sera non paramétrique car le seuil C’, ne dépend pas de la distribu- 


tion du bruit et est déterminé par une probabilité donnée «& de 
fausse alarme 


P{U(x N>C1|H}= a. (2.202) 
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La figure 2.11 schématise un dispositif de détection réalisant 
l'algorithme (2.201) appelé algorithme unilatéral de Wilcoxon 
à deux échantillons. 

Comme nous l’avons noté dans 2.1.7, la statistique U (x, v) 
est asymptotiquement normale pour 7, —+ oo, ñ, — co, une bonne 


Fig. 2.11. Schéma fonctionnel d’un détecteur de signal utilisant l’alsorithme 
de Wilcoxon à deux échantillons. 


approximation de la loi normale étant observée déjà pour n, > 3, 
n, >> 20. Pour ces conditions de normalisation, on obtient à partir 
de (2.202) la grandeur du seuil, à savoir 


Ci= za [nano (ns + no +1)/142)/* + nin/2, (2.203) 


x, étant l’a-quantile de la loi normale. 

Compte tenu de (2.41), on peut exprimer la statistique U (x, y) 
en fonction des rangs À, des éléments zx; de l'échantillon observé 
dans l'échantillon composé (x, y): 


U(x, =D (Ri—i=S RUE, (2.204) 
i—= 1 i=! 


Il est également évident que la statistique (2.200) ne diffère 
que par une constante de la statistique 


ns 1 


U, (x, y) = à À sgn (zx: — y;). (2.205) 


Lors de la détection d’un signal constant de signe quelconque 
on utilise l'algorithme bilatéral non paramétrique de Wilcoxon 
à deux échantillons, en vertu duquel on prend la décision sur la 
présence du signal si 


U(x, y —5+)2>0C2, (2.206) 
le seuil C’, pour des échantillons de tailles importantes étant égal à 


Co = Troj2 (nn (ns + no + 13/12] 0/2. (2.207) 


8—0165 
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2.6.4. Efficacité asymptotique relative de l’algorithme de Wilco- 
xon à deux échantillons. Comparons l'algorithme (unilatéral) de 
Wilcoxon à deux échantillons avec l'algorithme de détection de 
signaux optimal en présence de bruits normaux. Supposons que 
l’algorithme de détection (2.196) ou l'algorithme qui lui est asymp- 
totiquement équivalent (2.197) sont utilisés pour des bruits additifs 
de distribution quelconque. Cherchons le coefficient d'efficacité 
asymptotique relative de l'algorithme (2.201) par rapport à l’algo- 
rithme (2.196). 


Comme 
_  — —  — 1 1 
mr —yIK}= aa, M{z—viH}= 0 (+), 
on a 
d _ — Ru — —_ a 
rrat-viA)] MG -vIH}= EE. (2.208) 


Calculons la valeur moyenne de la statistique U (x, y) pour 
l’alternative X. Avec (2.200) on trouve 


no? 


mi {U (x, nIKk}= 2 


= 


ni 
2 mitu(zi—v;)lK}=rn2p, (2.209) 


où p est la probabilité que l’élément de l’échantillon soit supérieur 
à l'élément correspondant de l'échantillon d'apprentissage, i.e. 


p=P{r>y|lK}= [re (2— a) w, (2) dz, (2.210) 
avec _ 
Fi(z)= f w, (u) du. 
On tire de (2.200'), 2.209 et (2.210) 


[ae ms {U (x, Y)Aa=o |'/ M: {U (x, y)14}=— 


00 


Se UE — 2 ? 
= D CREME à ( ui te) &) . (2.211) 


L'expression du coefficient d’efficacité asymptotique relative 
cherché se déduit directement à partir de (2.208) et (2.211), soit 


p = 1202 ( f w® (2) dz). (2.212) 
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Notons que (2.212) coïncide avec l’expression (2.102) du coef- 
ficient d'efficacité asymptotique relative de l’algorithme signe-rang 
de détection d’un signal constant noyé dans un bruit additif à distri- 
bution symétrique, par rapport à l'algorithme linéaire. Donc tous 
les cas particuliers évoqués dans 2.4.2 et toutes les valeurs numé- 
riques du coefficient p qui y sont données se rapportent automati- 
quement à l'algorithme de Wilcoxon à deux échantillons envisagé ici. 


2.7. ALGORITHMES DE SIGNE ET DE RANG DE DÉTECTION 
DES SIGNAUX NOYÉS DANS DES BRUITS CORRÉLÉS 


2.7.1. Modèle autorégressif des bruits corrélés. Supposons que 
l'échantillon du bruit x — (x1, . . ., x,) représente une suite auto- 
régressive aléatoire stationnaire du premier ordre, c’est-à-dire (voir 
par exemple [32]) 


Ti — Er; z;j= ti +E;, = 2: ss D; | (2.213) 


OÙ Es + - + En eSt une suite de grandeurs aléatoires indépendantes 
de même distribution de moyenne nulle et de variance finie, avec 
| À | 1. En vertu de (2.213) on a 


=5 Men = > Ame, m—=1,...,n, (2.214) 
l= 


m+h—1 R-— 1 m+hk-—1 
= NN) l 
Tm+k — 2 À Em+k-1 — 2 À Em+h-l na 2 h Em+k-l = 


— > N'Emtn-t + > Net, k21, 
1=0 1=0 
ou 


Tnt = N'lntnmen k>1, m—1,...,n, (2.215) 
avec 
h—1 


Nm+k = 2 N'enin-t- (2.215) 


Il est clair que pour k>1 les grandeurs x, et n,:+x sont indé- 
pendantes. Dans le cas particulier (4 — 1) les grandeurs x, et 
Em+u M = À, ..., n — À, sont indépendantes. Il est facile main- 
tenant d'indiquer la condition à laquelle doit satisfaire la distri- 
bution des variables €; pour que tous les éléments de l’échantillon 
du bruit (x, ..., x,) appartiennent à une même distribution 
w, (x). Soient 6, (v) la fonction caractéristique correspondant à la 
densité de probabilité w, (x), et Onn (v) la fonction caractéristique 
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de la variable aléatoire 1,::. Les variables x,, et n,+: étant indé- 
pendantes, on obtient la condition cherchée à partir de (2.215) 


84 (v) = 6, (Av) Enix (v) 
ou 


On (0) = 0: (v)/B: (A2*v). (2.216) 
La fonction de corrélation de la suite (2.213) (voir (2.215)) est 
B; (k) = M; {ZnTm+h} = M; (2 (rm + Nm+x)} = 
= mi {rh} + mi {zmmsx} - 
Comme mm; {ZmNm+x} = 0, en introduisant la désignation 0° — 
— m,{zx;} on obtient 
B, (k) = B, (—k) = 0. (2.217) 


En vertu de (2.215) la suite {x,,} est un processus markovien 
ergodique simplement connexe à temps discret (voir tome I, $ 4.5). 


2.7.2. Algorithme de signe compte tenu de l'autorégression. 
Considérons de nouveau l'algorithme de signe (2.47) de détection 
d’un signal constant noyé dans un bruit à distribution symétrique, 
mais les valeurs échantillonnées du bruit ne seront pas supposées 
indépendantes comme dans 2.3.1, elles seront conformes au modèle 
d’autorégression introduit plus haut. 

La corrélation entre les valeurs échantillonnées du bruit ôfe 
à l'algorithme de signe (2.47) la propriété d'être non paramétrique. 
Pour nous en rendre compte nous allons montrer que dans le cas 
envisagé le seuil C dans (2.47) dépend de la distribution du bruit. 
Déterminons la valeur moyenne et la variance de la statistique de 


n 
signe D, u (xz;) pour l’hypothèse H. La moyenne de la somme de 
= 1 


1—= 
variables aléatoires étant toujours égale à la somme des moyennes, 
on a 


m1 p2 u(zxi)|H) = 2 m1 {u )1A)= À P{rx:>0|H}=n/2, 
(2.218) 


où P{r;, > 0 | H} = !/, grâce à la symétrie de la distribution du 
bruit. La variance de la statistique de signe est 


M,{5 u(z)|H}=m {5 S [ue (a) — + ][u te) + 14} = 
ii ei J= 


i 


= D D'Imu(z)u(z;)|H}— "Al. (2.219) 
i=1 J=1 
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Le bruit étant stationnaire, on a 
Ba(i—i)=miqu(r)u(z;)lH}— "= Bu(i—i). (2220) 
En substituant (2.220) dans (2.219) on trouve 


{3 uted 14} = D (m— KI) Ba (= 
k—-n 
n— 1 


= +2 S'(n—k)B,(k). (2.221) 


h =1 


Pour le modèle autorégressif (2.213), la fonction de corrélation 
B, (k) peut être exprimée en fonction de la densité de probabilité 
w, (x) de la distribution du bruit. En vertu de (2.220) et (2.215) on a 


Bu (K)++= Pam >0, Zmtr >01A}= 
= P{in>0, Vrm+ mt > 01/1} = 


— Ï w, (x) ÿ Wnnin(s)dzdx, (2.222) 
Rx 


Wn_ , (z) étant donné par la transformation inverse de Fourier à partir 


de (2.216), où 6, (v) est la fonction caractéristique du bruit. 

Ainsi la variance de la statistique de signe des observations 
pour un bruit corrélé dépend de la distribution du bruit. C’est 
pourquoi le seuil dans l’algorithme de signe (2.47) dépend de la 
distribution du bruit et par conséquent cet algorithme cesse d’être 
non paramétrique. 


2.7.3. Normalité asymptotique de la statistique. Pour un bruit 
corrélé du type autorégressif (2.213) la distribution de la statistique 


de signe >, u (x;) est asymptotiquement normale (pour nr —> oo). 
ii 


Cette propriété intéressante de la somme de variables aléatoires 
liées découle du théorème de la limite centrale pour des suites sta- 
tionnaires à mélange intense (voir [8], théorème 18.5.1). Les suites 
markoviennes ergodiques sont des suites à mélange intense. La 
suite {r;} des valeurs échantillonnées étant une suite markovienne 
ergodique, et u (x) une fonction monotone, la suite u (x;) est marko- 
vienne et ergogique. On peut appliquer le théorème de la limite 
centrale à la suite {y;} si 


lim W, (2 yi) = oo, 
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Ma {lg} < oo pour un certain ô > 0. (2.223) 


En vertu de (2.221) la première condition (2.223) est toujours 
vérifiée. Pour l’hypothèse Æ et 8=20ona 


Mu (z)}= m0 (lu (ri) — 21} = (1/2) P{xi20}+ 
+(—1/,) P {ri <0}= 1/16, 


donc la seconde condition (2.223) est également vérifiée. 

La statistique de signe étant asymptotiquement normale pour 
un bruit corrélé du type autorégressif, on trouve pour nr ÿ 1 la 
grandeur du seuil C dans l'algorithme (2.47) pour une probabilité 
donnée & de fausse alarme : 


C= ze |M; (à u(zx;)|H}]"*. (2.224) 


2.7.4. Efficacité relative de l'algorithme de signe de détection 
d'un signal pour un bruit corrélé. La valeur moyenne de la statistique 
de signe pour un bruit corrélé est égale à la valeur moyenne de cette 
statistique pour un bruit non corrélé (tant pour l'hypothèse H que 
pour l'alternative Æ) car la moyenne de la somme de variables 
aléatoires est toujours égale à la somme des moyennes des compo- 
santes. Par conséquent, le coefficient d'efficacité asymptotique 
relative de l'algorithme de signe de détection d’un signal constant 
noyé dans un bruit corrélé du type autorégressif, par rapport à l’al- 
gorithme de signe de détection d’un signal noyé dans un bruit indé- 
pendant, est égal à (voir (1.68”) et (1.70')) 


p=limM,{ S u (xi)|H, 1=0}/, {3 u(z)1H, 1>0}= 
Fo: i 1 i=1 


= lim + [M {5 u(zi)| A, 1>0} | !. (2.225) 
i—! 


71—0 


Servons-nous de (2.225) pour trouver le coefficient d'efficacité 
asymptotique relative dans le cas de bruits à distribution normale 
et laplacienne. 

Dans le premier cas la fonction caractéristique du bruit est 


8, (v) = e—1*#/? 
et en vertu de (2.216) 
On ()=exp{—02(1 —A24) v2/2} 
et 


Wnnsn (2) = 127 (1—A2%)02] exp{—22(202(1—22)]}. (2.226) 
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En substituant (2.226) dans (2.222) on trouve la fonction de corré- 
lation 


C Àku 
Bi(k)= \ w(u)F | ——— |) du —1},, 2.227 
où w (u), F (u) sont la densité de probabilité et la fonction de répar- 


tition de la loi normale. La dérivée par rapport au paramètre 8 — A} 
de l'intégrale 


I (5) = ut r (0) au À | o(u) F (Ou TT du 
0 0 


est égale à 


[" (0) = 1/(2x V 1 — 6°), (2.228) 
avec I (0) — 1/4. A partir de (2.227) et (2.228) on trouve *) 


Bu(k) = 2 arc sin A. (2.229) 


Substituons (2.229) dans (2.221), il vient 


n n—! 
M{X u (xi)| H}=r++ > (n—k)arcsinA*. (2.230) 
i=1 Rk=1 
Puis en vertu de (2.225) on a 
n—i 


p= lim [1+55 (1—+) arcsin 4 |". (2.231) 


En développant arc sin À" en série suivant les puissances de Ah 
et en utilisant la formule de la progression arithmétique-géométrique, 
on obtient à partir de (2.231) 


_Fiié< (2k)1 A2R# A 
P— [1 Li ñ à 22 (k1)2 (2k +1) (1— A2R+) ] : (2.232) 


Pour un bruit faiblement corrélé on a 


p = 1 — 4Un + 0 (1). (2.232") 


*) Remarquons que pour la distribution normale du bruit (2.229) découle 
immédiatement de l'expression pour la fonction de corrélation à la sortie d’un 
limiteur parfait (voir tome I, formule (7.90)). 
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Pour un bruit laplacien de densité de probabilité w, (x) = 
1 VZix] 


_ ve. o la fonction caractéristique est égale à 
if 1 
= —— {xl ox Es 
0, (v) 2 | 4 € dx TE 02/2 
—œ 


et en vertu de (2.216) 


ha2v?! 
Enr (0) = re AA + (4 — A24)/(1 + 0202/2), 
d’où 
ok { — À°R Le ‘ 
Uniih (z) = À SA LE Ra |z|. (2.233) 


La substitution de (2.233) dans (2.222) donne 


By (&)++= - e- VE tas (pue + | e-Widz) dr = 
. HP 0 : Ur V2/0 


1f 1— ak 
=+ [ev[ar+ (1 +- 1— ex) | dy = 
0 
=+fev(arti-ar eh) 
0 
1 OA—AUR 1 1, 12 
TT 9 4 Douanes 


et dans le cas envisagé 
Bu (K)= +4. (2.234) 


La variance de la statistique de signe se trouve à partir de (2.221) 
et (2.234): 


n ñn— 1 

M{ 3 u (x) H}=E++S (n — k) A2: — 
is { k=1 

_n F1+A 2A 1—2X7À = 

ALT» Gp | en 


Avec (2.235) et (2.225) on trouve le coefficient d'efficacité asymp- 
totique relative de l'algorithme envisagé pour la distribution lapla- 
cienne du bruit corrélé 


p = (4 —À)/(4 +). (2.236) 
Pour un bruit faiblement corrélé 
= 14 — 21 + o (À). (2.236”) 
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2.7.5. Comparaison des efficacités des intégrations avec limitation 
et sans limitation. Dans ce paragraphe nous allons étudier les algo- 
rithmes analogiques de détection d’un signal constant (positif) 
noyé dans un bruit markovien stationnaire additif de moyenne nulle 
et de fonction de corrélation égale à o*e-? TI. On sait (voir tome II, 
3.5.4) que dans le cas d’un bruit markovien normal l'algorithme 
optimal (d’après le critère de Neyman-Pearson) de détection d’un 
signal constant consiste à comparer avec un seuil la statistique 

T 


Lx (0) + x (TV(AT) +7 [20 dt, où z(t) est la réalisation du 


0 

processus observé sur l'intervalle (0, 7). Cet algorithme optimal 
est réalisé par un intégrateur parfait. Pour l'hypothèse H la valeur 
moyenne de cette statistique est nulle, et la variance pour ÀT © 1 
est égale à 


T 

( T 1 20° : ” 

M, (Oo 4e | z(t) dt} = +o[(AT) 1]. (2.237) 
0 


Supposons maintenant que le bruit markovien ne suit pas la loi 
normale et qu'avant l'intégration on procède à une limitation 
parfaite de la réalisation observée. L'algorithme de een con- 


siste alors à comparer avec un seuil la statistique — 1 f u [x (t)] dt 


0 
qui est une statistique de signe limite lorsque le nombre n d’échan- 
tillons discrets sur l'intervalle d'observation T augmente indéfi- 
niment. Dans ce cas (voir (2.217)) 

B,(1)=02e-ÀT/n, (2.237'} 
d’où l’on trouve pour l’hypothèse Æ7 et pour une distribution symé- 
trique du bruit 

T 
Le 1 
m, + | u(z (91 d|4}= 7) mitulz(t)]lH}dt=—, (2.238) 


0 
M, {+ ( u[zx(t)] dt\H}= lim M, (+ D'u(z)lH}, (2.239) 
0 cb i=! 
avec x; = zx (iT/n). 


En vertu de (2.237) et (2.239), des résultats de 2.3.3 et du fait 
T 


que la statistique + | u [x (t)] dt est normale pour ÀT —+ oo, l’effi- 


0 
cacité asymptotique relative du détecteur à limitateur et intégrateur 
par rapport au détecteur (optimal pour un bruit normal) n'utilisant 
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qu'un intégrateur se mesure par 


T 
Fr (OM fr futetain}, (2.240) 


0 


où w, (x) est la densité de probabilité unidimensionnelle du bruit. 
Pour un bruit à distribution normale (voir (2.229)) on a 


p = 


T 1 
Ma{+ u[z(2)}dt}H}=+ (Â—zharcsine-M:dz. (2.241) 


Pour ÀT S 1 


T 1 
1 1 ; : 1 
M{+ | u[z(t)] dt\H} +) arc sin eÂÀT: d= 7 > De 
0 0 n=0 
où a; sont les coefficients du développement en série de puissances 
de arcsinzxz (voir (2.232)). Mais puisque 


Î co 
arc sin z an 1 
| —, =) rires in2, 
0 n=l) 
on à 
1 5 In 2 
M, {+ | ulz(tidtH} 5. (2.242) 
0 


En substituant (2.242) dans (2.240) et compte tenu que pour 
une distribution normale w (0) — 1/(2x0“), on trouve 


p = 2/(n In 2) = 0,9. (2.243) 


Cette valeur est voisine du coefficient d’efficacité asymptotique 
relative du détecteur de phase optimal par rapport à l'algorithme 
optimal (voir tome II, page 302). 

Pour un bruit laplacien on a (voir (2.235)) 


T —AT/n 
M, {+ | utæ (#1 dt 4} = lim as = 1/OAT). (2.244) 
0 


Lo an(1—e ÀTin 


En substituant (2.244) dans (2.240) et vu que pour la distribu- 
tion de Laplace uw (0) — 1/(20*), on trouve 


p = 2, (2.245) 


<e qui coïncide avec le coefficient d'efficacité asymptotique relative 
de l’algorithme de signe par rapport à l'algorithme linéaire pour 
un bruit laplacien (voir (2.72)). 
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2.7.6. Algorithme signe-rang de détection d'un signal constant 
noyé dans un bruit corrélé. Nous avons remarqué dans 2.4.2 que 
l'algorithme signe-rang (2.92) de détection d’un signal constant 
(positif) noyé dans un bruit normal indépendant additif ne cède 
pas beaucoup en efficacité asymptotique à l'algorithme linéaire (2.62), 
optimal pour ce type de bruits. [1 est intéressant de comparer les 
efficacités asymptotiques des algorithmes (2.92) et (2.62) pour un 
bruit corrélé. 

Remarquons tout d'abord que pour un bruit normal corrélé, 
ce n’est plus l’algorithme (2.62) de détection d'un signal constant 
a >> 0 qui soit optimal suivant le critère de Neyman-Pearson mais 
l'algorithme de sommation pondérée (voir tome II, 5.3.1). Il est 
facile de trouver le coefficient d'efficacité asymptotique relative 
de l'algorithme linéaire (2.62) utilisé pour un bruit corrélé par 
rapport à ce même algorithme qu’on emploie pour un bruit inde- 
pendant. Il est évident que ce coefficient sera égal au rapport des 
variances pour un bruit indépendant et pour un bruit corrélé, soit 


p=tX RG]! (2.246) 


où À (t) est le coefficient de corrélation d’un bruit stationnaire 
au sens large et + l’intervalle de quantification. 
Si, par exemple, R(t)—=e-«ltl, en vertu de (2.246) on a 


- _ — | le © ,, 
p=(1+2Y e es] pr me (2.246') 
R= | 


Pour t—+ 0 on a p—0 et pour T— ©, p —+ 1. Le calcul de la 
variance d’une statistique signe-rang étant très ardu pour une distri- 
bution quelconque du bruit corrélé, nous nous limiterons au cas 
d’un bruit normal. On peut montrer (voir [23]) que le coefficient 
d'efficacité asymptotique relative de l'algorithme signe-rang de 
détection d’un signal constant (positif) noyé dans un bruit normal 
additif corrélé par rapport à l'algorithme linéaire est égal à 


p = > R (kr)] 2 2arc sin ET. (2.247) 


R— — 0 hi — — oo 


Pour t — oo, on a p —+ (2arc sin 1/2)-! — 3/n, ce qui coïncide avec 
le résultat cité dans 2.4.2. 

Dans 2.6.2, nous avons obtenu l'algorithme (2.196), optimal 
pour la détection d'un signal constant noyé dans un bruit normal 
additif de valeur moyenne inconnue, en présence d’un échantillon 
d'apprentissage du bruit, lorsque l'échantillon observé et celui 
d'apprentissage sont indépendants. Le coefficient d'efficacité asymp- 
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totique relative de l’algorithme (2.196), pour un bruit normal cor- 
rélé, par rapport à cet algorithme utilisé avec un bruit indépendant, 
est donné par la formule (2.246). Si dans le cas envisagé on fait 
usage de l’algorithme à deux échantillons de Wilcoxon (voir 2.6.3), 
le coefficient d'efficacité asymptotique relative de cet alorgithme 
par rapport à l’algorithme (2.196) est donné par la formule (2.247). 


2.7.7. Algorithme de rang de détection d'un signal stochastique 
noyé dans un bruit corrélé. Dans 2.5.1 nous avons obtenu l'algorith- 
me (2.158), optimal pour la détection d’un signal normal noyé 
dans des bruits normaux additifs, utilisé dans un système à deux 
canaux, lorsque les échantillons observés étaient indépendants tant 
pour l’hypothèse Æ (il n’y a pas de signal) que pour l'alternative 
(le signal est présent). Pour un bruit normal corrélé cet algorithme 
ne sera plus optimal. Le coefficient d'efficacité asymptotique rela- 
tive de l’algorithme (2.158) pour un bruit corrélé par rapport à cet 
algorithme pour un bruit indépendant est, comme il est facile de le 
voir, égal à (comparer avec (2.246)) 


p = [> R2(kr)]7!. 2.248) 


Si par exemple, le coefficient de corrélation d’un bruit station- 
naire au sens large est égal à R (t)=e-«lti, on tire de (2.248) 


eat 


: D re 1"! 1e” 
p +22 e se] 


| er u 


Supposons que pour la détection d’un signal stochastique on 
utilise l'algorithme de rang non paramétrique de Kendall (voir 
(2.192)). Dans le cas d’un bruit normal corrélé le coefficient d'effi- 
cacité asymptotique relative de cet algorithme par rapport à l’al- 
gorithme optimal (2.158) utilisé pour un bruit indépendant est 
égal à 


(2.248) 


p = > RE (k)] > 2[2arcsin #2 |. (2.249) 
k=— — 00 R=— — 00 

Pour t— oo on a p—9/(2x*), ce qui coïncide avec le résultat 

évoqué dans 2.5.5. 


2.8. PROBLÈMES 


2.1. a) Montrer que la densité de probabilité simultanée d'un 
élément appartenant à un échantillon homogène indépendant et 
de son rang est égale à 


w(x, R)=— { ei), 


Der Fi G@)A—F(G) ua(z), (1) 
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où w, (zx), F, (x) sont la densité de probabilité et la fonction de 
répartition du processus dont on prend l'échantillon, et n la taille 
de l'échantillon. 

b) En utilisant la formule (1), montrer que le coefficient de 
corrélation d’un élément de l’échantillon et de son rang est 


Co Ce SCI CES CRE 


où o° est le moment centré deux de la distribution F, (x). 
c) Calculer r,. A pour la distribution normale et la distribution 


L ? per . : — 1 2 
uniforme et vérifiér que dans le premier cas r,,r = (2° =)" 


_ fm=1\ig 

et dans le second r,;,r — (=) 1°: 
2.2. Soient x;, ..., zx, un échantillon indépendant de la distri- 
bution F, (x), et x‘ la i-ième statistique d’ordre de l'échantillon. 
Montrer que la fonction de répartition F, (2) de la variable aléatoire 


ue File) (2) (3) 
ne dépend pas de F, (x) et peut s’écrire comme suit: 
Fi,(z)=P{u,<z}=E(s, rn—s+1)= 

= B,(s,n—s+1)/B(s,n—s+1), 0O<Lz<1, (4) 


B, (a, b) ={ 111)" dt, B(a, b)= 
0 


F'(a)T (b) 


+371 (1 — t)o"1 dt — Tab) j 


Qt 


2.3. Soient Zey, - « Zen @t Lsps + « + Ten deS échantillons indé- 
pendants des composantes en quadrature du processus aléatoire 
à bande étroite observé qui est soit un bruit, soit un mélange d’un 
bruit additif et d’un signal sinusoïdal quasi déterministe à phase 
aléatoire. Généraliser au cas envisagé l’algorithme signe-rang de 
détection de signaux (voir (2.91)) et montrer que cet algorithme 
généralisé se réduit à la comparaison à un seuil de la statistique 


Sn (x) = [SY (x) + SE (x)]'/*, (5) 
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a 


ou 
Fe (R)= max {Sue (x), ED 5, ()} : (6) 
SF (x) = max {S,, (x), TE es, (x)} ; (7) 
Sne (x) = à Riu (zci); (8) 
Sr, (x)= 2 Räu (xs), (9) 


et R';, R' sont les rangs des modules des valeurs échantillonnées 
des composantes en quadrature. 

2.4. Montrer que le coefficient d'efficacité asymptotique relative 
de l'algorithme signe-rang de détection d’un signal constant noyé 
dans un bruit additif logistique (voir (3.163)), par rapport à l’algo- 
rithme linéaire est égal à x°/9. 

2.5 [10]. Soient zx;, ..., æ, et y, . .., y, des observations 
indépendantes à la sortie d’un système à deux canaux de détection 
d’un signal stochastique noyé dans des bruits additifs (voir 2.5.1). 
Pour la détection du signal, on utilise un algorithme prescrivant 
la comparaison à un seuil de la statistique 


n 


Sn (X: Y) = à sgn (z:— x") sgn (yi—y*), (10) 


où z* et y* sont les médianes échantillonnées. Montrer que le coef- 
ficient d'efficacité asymptotique relative de cet algorithme par 
rapport à l'algorithme (2.166) utilisant le coefficient de corrélation 
échantillonné est égal à 4/n°. 

2.6. Montrer que pour la statistique (2.197), pour une distribu- 
tion quelconque du bruit, la covariance entre le numérateur et 
l'expression dans l’accolade dans le dénominateur, pour l'hypothèse 
H, est égale à 

cov= M3 (7) /(ni+ 2 —2), (41) 
Le 2 


n 


où Af;, est le moment centré trois de la distribution du bruit. 
2.7. Soient y1, ..., y, un échantillon d'apprentissage indé- 
pendant du bruit et x;, ..., x, un échantillon indépendant servant 
à tester l'hypothèse selon laquelle le processus observé est un mélange 
d’un signal stochastique et d’un bruit additif (voir 2.6.1). Montrer 
que le coefficient d'efficacité asymptotique relative de l'algorithme 
mixte de détection d’un signal, prescrivant la comparaison à un 
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seuil de la statistique 


r— | | r-1 m m 
Sn (x, y) _. 2 S$ (x, y) = À à 2 sgn (Zim+ÿ — Yim+h) (12) 
1= =Ù 7 = = 


par rapport à l'algorithme (2.196) est égal à 
p — (3/1) [2m/(2m + 1)], (13) 


où m est le nombre de valeurs échantillonnées dans chacun des r 
groupes (voir 2.6.4 et aussi [24]). Montrer que la formule (13) est 
également vraie pour le coefficient d'efficacité asymptotique relative 
de l’algorithme (12) par rapport à l'algorithme de Student (2.197). 


CHAPITRE 3 


ALGORITHMES ASYMPTOTIQUEMENT OPTIMAUX 
DE DÉTECTION DES SIGNAUX 


3.1. STRUCTURE DES ALGORITHMES ASYMPTOTIQUEMENT 
OPTIMAUX DE DÉTECTION DES SIGNAUX D'APRÈS 
DES OBSERVATIONS INDÉPENDANTES 


3.1.1. Développement asymptotique du logarithme du rapport de 
vraisemblance. Soit x = (7,,...,r,) un échantillon indépendant 
issu de la réalisation zx ({) du processus observé, on a x; = x (t;), 
i = 1, ..., n. On vérifie l'hypothèse A selon laquelle l'échantillon 
est homogène et appartient à la distribution du bruit w, (x; 0), 
contre l'alternative que l’élément zx; de l'échantillon appartient 
au mélange d’un signal déterministe À,s (£{) et d’un bruit de distri- 
bution w, (x;; ÀAns;), par ailleurs s; = s (f;), i = 1, . .., n. Comme 
nous l'avons noté dans 1.1.8, l'algorithme optimal de détection 
d'un signal déterministe noyé dans un bruit stationnaire indépen- 
dant consiste à réaliser la comparaison avec un seuil du rapport de 
vraisemblance 


ni 


(ES 52: zn)= I] wi (ris Ansi)/w (x; 0) (3.1) 


-ou (ce qui est équivalent car la fonction logarithmique est monotone 
du logarithme du rapport de vraisemblance 


Inl(rs, ..., 2n)= D Infwi (ri Ansi)/wi (xx 0)], (3.2) 
1 


qui pour »z quelconque est une statistique suffisante dans le problème 
de la vérification des hypothèses statistiques (1.1.8). 

La synthèse des algorithmes asympotiquement optimaux de 
détection des signaux noyés dans des bruits (voir 1.2.8) est basée 
sur l’étude du développement asymptotique du logarithme du rap- 


port de vraisemblance pour 7 —> 0 et À, n — y, où y est une 
constante positive (voir (1.50)). 

Avant de passer à cette étude nous allons formuler les conditions 
auxquelles doit satisfaire la densité de probabilité du mélange du 
-signal et du bruit et que l’on rencontre habituellement dans les 
problèmes pratiques. Désignons par 8 le paramètre de la fonction 
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W (7; ÀnS) 
0 = 1,s = ys/V n, 


où s = s (t) est la valeur (normée) du signal à un instant quelconque. 
Exigeons que la densité de probabilité w, (x; 0) 1) soit continue 
par rapport à Ÿ au point Ô = 0 uniformément pour toutes les valeurs 
de x, 2) ne s'annule pas dans le domaine des valeurs échantillonnées 
et 3) admette le développement 


W (x; Ô) — w, (x; 0) [1 + 8f (x) + 8*6 (x, 8)|, (3.3) 
où 
f(x) — = _ wi (x; Ÿ)|9=0; (3.4) 
f() #0, 
et 


I,=m;{f2(x)|H}=— | f(x) u, (x; 0) dr € oo, (3.5) 


mi{f(x)|H}= | f(x) wi (x; 0) dr =0, (3.6) 


en outre, pour € > 0 quelconque il existe toujours un Ô, tel que 
| 62 (x; D)ui(z: OJdre, 10180. (3.7) 


Pour les conditions mentionnées le logarithme du rapport de 
vraisemblance admet le développement asymptotique suivant: 


n 


In (xs, .., = D Sif (x) — 
i= 1 


—LLW,+a (z, F= s) , (3-8) 


où W, est la HR du signal *) 


T 
1 C 
Win LD 4 im | de W,<o.  (3.8') 
i= 1 
*) En introduisant les ‘désignations n=tiT, Anne (ti — tT = 
1 : 
= 0n obtient pour nr © 1 


Î T 
_— L> s? (ty) = S s(Tri) Ari | st (Tzx) de | s(t) dt. 
î1— i1=1 0 0 


9—0165 
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Le terme résiduel «, du développement (3.8) tend en probabilité 
vers Zéro pour z —+ oo tant pour l'hypothèse F, que pour l’alterna- 
tive X. 

Dans 3.1.2 nous avons donné une démonstration, bien que sché- 
matique, du développement de la forme (3.8) du logarithme du 
rapport de vraisemblance. 

En examinant (3.8) on voit que les propriétés asymptotiques du 
logarithme du rapport de vraisemblance sont déterminées en pre- 
mier lieu par le terme linéaire du développement, c’est-à-dire par 
la statistique 


nr 
Yn (Tir 2) = D Sif (zi). (3.9) 
Vn i=1{ 

En vertu du théorème de la limite centrale, la statistique (3.9) 
est asymptotiquement normale, car on suppose que les termes de la 
somme sont indépendants et que pour nr suffisamment grand et 
pour des signaux réels le rapport de la variance d’un terme quel- 
conque sil,;/n à la variance de la somme I;W, est inférieur à une 
grandeur quelconque aussi petite que l’on veut, c’est-à-dire que 
l'on a (cf. (2.119)) 


n 
lim max s?/ D st—0. (3.9) 

no 1<i<Sn i= 1 
Trouvons les paramètres de la distribution asymptotiquement 
normale de la statistique y, (x) définie par (3.9). Pour l’hypothèse H 
la moyenne de y, est nulle en vertu de (3.6), et la variance est 


n LL 
Mz{ynlA}=M,{14} = 5 si — I; W,. (3.10) 
i=1 
Pour l'alternative X la moyenne de y, peut être calculée à partir 
du développement (3.3): 


ma {un lR}= = D sim (f (m)1K}= 


nm. 
1=1! 


n 00 
1 


= Vr D Si | y (zi; vs/V n) f (x) du — 


— > Se | [1 na = f (1) | Î (xi) li (x; 0) dx; — 


; n 
nn vL — > SF Mi{ÿnlA} = YHWs (3.11) 


1—=1 
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Des calculs plus longs permettent de voir que les variances de la 
statistique (3.9) pour l'alternative Æ et pour l’hypothèse H sont 
asymptotiquement égales (voir (3.10). Par ailleurs, ce résultat 
découle immédiatement de certaines considérations générales, comme 
nous l’avons remarqué dans 3.1.2. 

En comparant (3.8) et (3.9) on voit que la distribution du loga- 
rithme du rapport de vraisemblance est également asymptotiquement 
normale, et les paramètres de cette distribution sont (—*I;W./2, 
v’L;W.) pour l'hypothèse H et (ÿ*1;W./2, y*I;W.) pour l'alterna- 
tive X. 


3.1.2. Schéma de la démonstration du développement asymptoti- 
que. Pour montrer que le développement (3.8) est vrai pour l’alter- 
native on utilise la notion de suites asymptotiquement équivalentes 
de distributions (contiguité) introduite par Le Cam [27]. 

Deux suites de distributions w, (x; 0) et w, (x; 8) sont dites 
asymptotiquement équivalentes si la convergence en probabilité 
d’une statistique quelconque #, (x) — 0, pour une suite de distri- 
butions, entraîne pour l’autre suite la convergence en probabilité 
de cette statistique vers zéro. Comme l’a montré Le Cam, la condi- 
tion nécessaire et suffisante d'équivalence asymptotique de deux 
suites de distributions est 


| eu (z) dz= 1, (3.12) 


où w° (z) est la fonction de répartition limite du logarithme du 
rapport de vraisemblance 


In Z (x) = In w, (x; 8)/w, (x; 0) (3.12°) 


dans l'hypothèse que 8 = 0. Pour que les deux distributions 
w, (x; Ô) et w, (x; 0) soient asymptotiquement équivalentes il 
suffit que le logarithme du rapport de vraisemblance pour l'hypo- 
thèse nulle soit asymptotiquement normal de paramètres(—M,/2, M), 
où M, est la variance de la distribution asymptotique. Il est facile 
de voir qu’alors la condition (3.12) est vérifiée: 


| € (2n,) exp { — (2 + M,/2)/2M,)} dz = 
— 7= | exp {y V M2—(y+V M2/2)7/2} dy = 
= | exp{—(y— V 112/2)2/2} dy =1. 


9% 
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En vertu du théorème de Le Cam (voir [3], chap. VI, p. 1.4), 
si la distribution du logarithme du rapport de vraisemblance pour 
l'hypothèse nulle est asymptotiquement normale de paramètres 
(—M,/2, M), elle est également asymptotiquement normale pour 
une alternative « voisine » de paramètres (W./2, M). Par exemple 
(voir 1.1.9), deux suites de distributions normales: w, (x; 0) d’un 
bruit corrélé et w, (x, Às) d’un mélange additif d'un signal déter- 
ministe et d'un bruit sont asymptotiquement équivalentes (pour 
NT = y << oo, T —+ ©, où T est la durée de l'observation). 

Indiquons maintenant en traits généraux les raisonnements 
conduisant à la démonstration du développement (3.8). En utili- 
sant (3.3) on peut présenter le logarithme du rapport de vraisemblan- 
ce comme suit : 


7 f(x) | + a (x, 7) 


en développant le logarithme en série de Taylor, on trouve 


In l,(2,...,2r)= Ÿ In [1+ 
i=1 


n 


Inl(zi, ..., Tn)—= = > sf (z)— + D sf? (2) + 


i=1 1 


ob [. Y (2) Y 

Tout d’abord on montre pour l'hypothèse Æ la convergence en 

probabilité vers zéro des termes résiduels &{1) et &«{?) pour 7 — co. 

Puis pour l'hypothèse 77 on montre que, d’après la loi des grands 

nombres, la densité de probabilité de la distribution du terme qua- 
n 


| 2 ; ; te 
dratique Y sf* (xi) devient une fonction delta, c’est-à-dire que 
i—! 
ce terme converge en probabilité vers une constante égale à 


mi e= ÿ sif? (x)1A} = Y?1;,W.,/2. 
i=1 


Pour l'hypothèse H la distribution de In l(x;, ..., x,) est 
asymptotiquement normale de paramètres (—%*I;W,/2, y“I;W.). 
Ainsi se vérifie la condition d'équivalence asymptotique des suites 
des distributions — pour l'hypothèse Æ : w, (x; 0) et pour l’alter- 
native « voisine » Æ: w, (x; À,s). Par conséquent, en vertu de la 
définition de l’équivalence asymptotique de mesures probabilistes, 
pour l’alternative X également, les termes résiduels a{t) et «!{°) 


convergent en probabilité vers zéro pour ñn—+ © et À, Vn = y. 
et le terme quadratique converge alors vers la constante y*I;W,/2, 
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Notons que dans le développement (3.8) on a 


An (x, 7 s} = af (x, = s)+aP(x, 7= s) + ai (x, 


v_ s), 
n 


ou 


a (x, es) = [uw LS da) 
1=1 


n 
pour ñz —> œ converge en probabilité vers zéro. 
n 
Souvent pour #7 > 1 la quantité LS sf (x;) est remplacée 


i=1 
par I;W, (par exemple, lors du calcul de la grandeur du seuil 
dans l'algorithme de détection). 

En vertu de l’équivalence asymptotique des mesures, la distri- 
bution du logarithme du rapport de vraisemblance pour l’alterna- 
tive À est asymptotiquement normale de paramètres (y*[;W,/2, 
Y°1,;W.), et la distribution de la statistique y, dans (3.9) pour l’alter- 
native Æ est asymptotiquement normale de paramètres (yl,;W., 
I;W.) (voir (3.11)). Notons également que la « distance » entre Îles 
statistiques y, correspondant à des hypothèses « voisines » # et K 
tend vers 


M; {Un | K} — M: {Un | H} dd vLW. 


3.1.3. Algorithme asymptotiquement optimal de détection d'un 
signal déterministe. Il découle de (3.8) et (3.9) que pour nr —+ co 
la statistique y, (x) ne diffère du rapport de vraisemblance, qui 
est une statistique suffisante dans le problème envisagé de la détec- 
tion du signal, que par un facteur y et un terme additif y*1,W./2. 
Donc on peut affirmer que la statistique y, (x) est asymptotiquement 
suffisante. La règle asymptotiquement normale de détection d’un 
signal déterministe Às(£) noyé dans des bruits indépendants de 
distribution w, (x; 0) peut se formuler comme suit *): pour x © 1 
on prend la décision que le signal est présent, si 


n 


Yn = D f(x) >C, (3.13) 
i=1 


et la décision qu’il n’y a pas de signal si c’est l’inégalité inverse 
de (3.13) qui est vérifiée. 


*) Les conditions de « proximité » de l'hypothèse Æ et de l'alternative K 
restreignent quelque peu la classe des interactions admissibles du signal et du 
bruit. Notamment, il faut que pour À —+ 0 le signal disparaisse et le bruit reste 
(par exemple, zx (t) — Às (t) E (t) est inadmissible, et x (t) = [1 + Às (r)] E (t) 
est tout à fait acceptable). 
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En utilisant la notion de fonction de décision (voir 1.1.6) on 
peut écrire comme suit l’algorithme de détection (3.13): 


O (x) = 1 (le signal est présent) lorsque y, (x) >C, 
O (x) = 0 (il n’y a pas designal) lorsque y, (x) << C. (3.13) 

Par la suite nous utiliserons parfois cette représentation de 
l'algorithme de détection par les fonctions de décision. 

La statistique y, étant asymptotiquement normale et compte 
tenu des valeurs des paramètres de la distribution limite pour l’hypo- 
thèse 7, on trouve la grandeur du seuil C à partir de la relation 
suivante pour une probabilité donnée & de fausse alarme : 


œ 


P{y,2zC|H}= TE | e-:/= dz= a, (3.14) 
CIVI,W, 
d'où 
C7; vVLW,, (3.15) 


où z,, est l'a-quantile de la loi normale. 

Connaissant C, on trouve la probabilité de détection correcte 
en se servant des valeurs des paramètres de la distribution normale 
limite de la statistique y, pour l'alternative, pour une probabilité 
donnée f de perte de signal: 


P{y, >C|K}= TE e-#/2dz—1—$ (3.16) 
T C-I,W, 
VIW, 
ou 
C—YI;W, 
— 17 
Li B VIIWs (3 1 ) 


où z1-8 est l’(1 — B)-quantile de la loi normale. 
En substituant dans (3.17) la grandeur C de (3.15) on trouve 
TiB=TZa—YyVIW,, (3.18) 


d'où l’on trouve la grandeur y correspondant à des probabilités 
données de fausse alarme «& et de perte de signal f 


V=(ze—ns)/VIW, a<1—$. (3.18) 
Remarquons que pour des &, B, 1;, W, donnés l'expression (3.18) 
donne également la valeur du seuil de l'amplitude du signal, soit 


je = y(æ, B, L,W,). 


La caractéristique de fonctionnement (3.18) de l'algorithme asymp- 
totiquement optimal (3.13) de détection d’un signal déterministe 
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pour y donné et ñ —+ oo tend vers la caractéristique de fonctionne- 
ment de l'algorithme de détection optimal (d’après le critère de 
Neyman-Pearson) pour la même constante ». 

L'algorithme asymptotiquement optimal (3.13) de détection 
d'un signal déterministe admet une interprétation simple (fig. 3.1). 
Le dispositif de détection se compose dans ce cas de deux blocs: 
le premier est un convertisseur non linéaire non inertiel qui assure 
la transformation de l'échantillon observé z en la grandeur f (x), 


Fig. 3.1. Schéma fonctionnel du détecceur asymptotiquement optimal d'un 
signal déterministe (observations indépendantes). 


et le second — un corrélateur effectuant la multiplication de la 
sortie du premier bloc par les valeurs du signal (en provenance 
d’un oscillateur local) et la sommation. Le corrélateur est suivi 
d’un dispositif à seuil. La décision que le signal est présent est 
prise lorsque ce seuil est dépassé. 


3.1.4. Caractéristique du convertisseur linéaire pour un bruit ad- 
ditif. Pour un bruit additif on a w, (x; D) — w, (x — Ô)et en vertu 
de (3.4) 


f(z)= —w! (x; OJus(x; 0)=—[inwi(z; 0). (3.19) 
. Dans ce cas la quantité d’information d’après Fisher quant à 1a 
distribution du bruit est (voir (3.5)) 


I; — | {uv (x; O/ui (x; 0)J'w, (x; 0) dx. 


Le produit 1; W. peut être interprété comme le rapport de la puis- 
sance du signal à la puissance du bruit. 

Pour un bruit normal additif de moyenne nulle et de variance 0° 
la densité de probabilité est 


wi{z; 0) re, (3.20) 
et par conséquent 
f(=-(-5) =<+ (3.21) 


Dans ce cas l’algorithme (3.13) coïncide avec l'algorithme opti- 
mal linéaire bien connu (algorithme corrélationnel). On prend la 
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décision que le signal est présent si (voir (3.13) et (3.21)) 


=! 
MR (3.21') 


La quantité d’information d’après Fisher pour un bruit normal 
est égale à 


I, — (3.22) 


NE 


7 f _.. an 


et la grandeur I1,W, = W,/0° n’est autre que le rapport habituel 
signal/bruit. 

Dans le cas d’un bruit laplacien additif de puissance moyenne 0° 
la densité de probabilité est 


CS 
uw, (x; 0) = —1— AE € 6 (3.23) 
et la caractéristique du convertisseur non linéaire est de la forme 
f (x) = V 2/o° sen x, (3.24) 


où l’on reconnaît la caractéristique du limiteur parfait. Ainsi, si le 
corrélateur est précédé d’un limiteur parfait, on obtient un détec- 
teur de signaux déterministe asymptotiquement optimal pour un 
bruit laplacien. 

En portant (3.24) dans (3.13), on trouve 


2 L Si SGEN T; 
Ven (3.25) 


cette expression ne différant de (2.80”) que par un facteur constant. 
Par conséquent, le détecteur de signe est asymptotiquement optimal 
pour la détection d’un signal déterministe noyé dans un bruit laplacien 
additif. Autrement dit, le système limiteur parfait — corrélateur, 
utilisé parfois comme un dispositif non paramétrique de détection 
de signaux en présence d’un bruit de puissance inconnue pour la 
stabilisation du niveau de fausses alarmes, n’est asymptotiquement 
optimal que pour un bruit laplacien. 

La quantité d’information d’après Fisher pour un bruit laplacien 
est égale à 


(3.26) 


d’où l’on trouve le produit 
I,W, = 2W,/0° (3.26°) 
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qui pour un bruit laplacien est le double du rapport signal/bruit. 
C'est ce qui explique le fait que l’algorithme de signe utilisé pour 
la détection d’un signal constant noyé dans un bruit laplacien addi- 
tif est deux fois (asymptotiquement) plus efficace que l'algorithme 
linéaire (voir (2.72')). 


3.1.5. Stabilité de l'algorithme asymptotiquement optimal de 
détection d'un signal déterministe. Revenons à l'algorithme asympto- 
tiquement optimal (3.13) de détection d'un signal déterministe 
Às (t) noyé dans un bruit à valeurs indépendantes. Supposons que 
la distribution du bruit a changé et se caractérise par la densité 
u, (x; 0) au lieu de la densité de probabilité w, (x; 0) pour laquelle 
l’algorithme (3.13) était asymptotiquement optimal. Il est évident 
cependant que la statistique (3.9), mise à la base de l’algorith- 
me (3.13), est pour un échantillon indépendant zx;, . .., x, asympto- 
tiquement normale également dans le cas où elle appartient à la 
distribution u, (x; 0). Seuls les paramètres de la distribution asymp- 
totiquement normale changent. 

Calculons la valeur moyenne et la variance de la statistique (3.9) 
pour l'hypothèse Æ, lorsque l’échantillon du bruit appartient à la 
distribution u, (x; 0 


m{— 2 sf (æ)1H, u}=— ù se | fut O)dz, (3.27) 
M, { 7= D sif(anlA, u}= 
i=1{ 


=[ ( f?(x)ui (x; 0) dr— | [ f(x)u (x; 0) dx)" Win, (3.28) 


n 
. 1 
où Wan = = D À 


i= 1 
Pour l'alternative Æ, lorsque l'échantillon zx; appartient à la 
distribution u, (x;; Às;), la valeur moyenne de la statistique (3.9) 
est égale à 


n 


m {72 ere |Æ, u}= 7x 2 af f(x) u; (x; Àsi) dx 


et pour ose n — 00 
ui (z; ÀS) = ui (x; 0) + sig (x) u1 (zx; 0) + 0 (1/ Vn), 
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1 Ô 
8) = 56 1 5 V)l0=0, (3.29) 


on obtient alors 
” 17 n co | . ; 
ma (7 2 > sis u}— (== 2a) [re (25 0) dr+ 


LyWan | f(z)e(x)ui (x; 0)dz. (3.30) 


La variance de la statistique (3.9) pour l'alternative X, avec 
les mêmes conditions, est 


DÉTOIES u} — M:{— 


M: {== Es DÉTOUL u}, 


c'est-à-dire qu’elle est donnée par (3.28). 
Si au lieu de la statistique (3.13) on utilise la statistique centrée 


Un) == D (si—5) f(x), (3.31) 
Vrn£ 
où 
= Vs, (3.32) 


ñn 


on a 2 (s3 — s) — 0 et à partir de (3.27), (3.28), (3.30) on obtient 
= ! 
Mmi{ÿnl H,u}=0, 
mur |A, u}= Wan | f(H (xx; Char, (8.83) 


Mn Au} - M{yn|ÆA;u}- 
- W[ [ f2(z)ui(zx; 0) dz— | [ f(x) ui(z; O)dz) |. (3.33) 


L'algorithme asymptotiquement optimal de détection d'un 
signal déterministe noyé dans un bruit de distribution u, (x; 0) 
s'obtient à partir de (3.13) en remplaçant la caractéristique f (x) 
du convertisseur non linéaire d'entrée par la caractéristique g (x) 
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définie par (3.29), c'est-à-dire 
n 
1 
Xj=—— S Li). 3.34 
Un, u (X) Va à 18 (xi) ( ) 
Les paramètres de la statistique asymptotiquement normale (3.34) 


sont : 


— pour l'hypothèse Æ (voir (3.6) et (3.10)) 


mn IA) (ED 5) [eau (z:0)dz=0, (3.35) 
i=1{ —00 


Manu IH} W, | (au(x; 0)dr=LW, (3.36) 


— pour l'hypothèse X (voir (3.11)) 
Ma {Un.u (X) | A} VI We, (3.37) 
M; {Yn. u (x) | K} dE I: W,, (3.38) 


où I, est la quantité d'information d’après Fisher sur la distribu- 
tion du bruit u, (x; O). 

Pour caractériser la stabilité de l’algorithme (3.13), servons- 
nous de la formule (1.77) et trouvons son coefficient d'efficacité 
asymptotique relative en présence d'un bruit de distribution u, (x; 0) 
par rapport à l'algorithme (3.34) asymptotiquement optimal pour 
ce bruit « étranger ». Remarquons que la formule (1.77) est vraie 
pour les statistiques centrées pour l'hypothèse 4. La statistique (3.34) 
pour un bruit de distribution uw, (x; 0) est centrée pour l'hypothèse 
H (voir (3.35)); quant à la statistique (3.13) pour un bruit « étran- 
ger », il faut la centrer, c'est-à-dire passer à la statistique (3.31). 

Avec les notations de la formule (1.77) on obtient dans le cas 
envisagé (voir (3.33), (3.33'), (3.37), (3.38)), ayant en vue que la 
statistique (3.31) est centrée : 


a = vI,W,, 6° =1I,W;, (3.39) 


a=YW, À f(x)e(z)u (x; 0)dx, (3.40) 


= W[ | P(z)ui(z;O)dr— (| f(æui(z: 0Yz) |. (8.41) 
En substituant (3.39) à (3.41) dans (1.77), on trouve le coeffi- 
cient cherché d'efficacité asymptotique relative caractérisant la 
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stabilité de l’algorithme (3.31): 


p=( | f(x) g(z)ui(z; 0) az)" { ( g’(z)ui(z; O)dz X 


x | [ f2(x)u (x; 0)dz— | [ f(z)ui(x:; 0) az)" |}. (3.42) 


Si les distributions w, (x; 0) et u, (x; 0) sont symétriques par 
rapport à l’origine, on a | fG)u (x; 0) dr = 0 et il n’est donc 


— 00 
plus nécessaire de centrer la statistique pour un bruit « étranger ». 
La formule (3.42) prend alors un aspect plus simple: 


({ f&)g(G)u (x; 0)àr) 
GE (3.43) 
LS g*(G)uitz; 0) dr À fr(r)ui(z; 0) dr] 


L'expression (3.43) est le carré du coefficient de corrélation 
des statistiques f (x) et g (x) lorsque x suit la loi uw, (x; 0). Par 
conséquent, p<1Â, le cas p = 1 ayant lieu seulement si f (x) = 
= £ (2). 

Voyons deux exemples illustrant la formule (3.43). Soit f (x) = 


— — . Comme nous l’avons dit plus haut (voir (3.21)), dans ce cas 


l'algorithme (3.13) coïncide avec l'algorithme linéaire, optimal pour 
un bruit additif, lorsque 


e—x"/20, 


wi (x; O) = VE = 
Supposons que l’on utilise un algorithme linéaire pour la détection 
d’un signal déterministe noyé dans un bruit additif distribué sui- 
vant une loi de Laplace de même variance 0° (voir (3.23)) 


u, (x; 0) = 7 Vis (3.44) 
En vertu de (3.34), on a dans ce cas (voir (3.24)) 
g (x) = V 2/0° sgn x. (3.44”) 


Pour un bruit laplacien, le coefficient d'efficacité asymptotique 
relative d’un algorithme linéaire par rapport à un algorithme asymp- 
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totiquement optimal pour ce bruit est en vertu de (3.43) égal à 


? — (+ [ ve V El on zdz) X 
x [+ [ Vis, ( me Val 24, (3.45) 


ce qui est en accord avec (2.72”). 

Ainsi, l'efficacité asymptotique d’un algorithme linéaire, opti- 
mal pour un bruit normal, diminue de moitié lorsqu'on l'utilise 
pour la détection d’un signal noyé dans un bruit laplacien (« étran- 
ger »). 

Soit f (rx) = V 2/0? sgn r. Cette fonction que réalise un conver- 
tisseur non linéaire d'entrée correspond à un algorithme optimal 
de détection d’un signal déterministe noyé dans un bruit additif 
laplacien (voir (3.24)). Supposons que cet algorithme soit utilisé 
pour un bruit additif normal de même variance. On a alors g (x) — 
— x/0*, et à partir de (3.43) on trouve 


p = Er: j x sgn xe-**/20" dx) X 


X [ = f z?e**/"® dx | C2 dz| +, (3.46) 


— 00 —0 


ce qui, comme on pouvait s’y attendre, coïncide avec (2.70). 


3.1.6. Algorithme asymptotiquement optimal de détection d’un 
signal quasi déterministe. Considérons maintenant un signal d’une 
forme plus générale (voir (1.9)) 


(9) = 2 dipi (e) — 8" (+), (3-47) 
où Ÿ” — (0,, ..., 0) est un ensemble de paramètres aléatoires 
liés et œ(t) = (@:(f), . .-., Pm (t)) sont des fonctions données. 


Désignons par ; le vecteur (à m dimensions) obtenu à partir de la 
fonction vectorielle œ ({) pour { = t;, i.e. 


Pr —= (4) Ta (@1 (£;), ss Pm (£;)), lis ss (3.48) 
En vertu de (3.47) on a alors 
Si = St) = 0'pt:) = Ê'p:. (3.48”) 


En substituant (3.48) dans (3.8), on trouve le développement 
asymptotique du logarithme du rapport de vraisemblance (condi- 
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tionnel, c'est-à-dire pour @ donné) pour le signal envisagé, soit 
Inl(zi,..., Zn | 0) = 


== D'of(a)—E10"A0+ a, (x, v5/Vr), (3.49) 
i= 1 


où A est la matrice m X m dont les éléments ay; sont 


n 


jh = lim + D P (ti) Qu (ti) — 
= mr 


T 
: 1 : 
lin + | 956) en ( de, j, k=1,..., m. (3.50) 


Tout comme dans (3.8) le terme résiduel &, dans (3.49) converge 
en probabilité pour z —+ co vers zéro, tant pour l’hypothèse que 
pour l’alternative. 

Considérons la statistique vectorielle à m dimensions 


Ya (x) = = S qui (xi), (3.51) 
i= 1! 


qui correspond au terme linéaire dans le développement (3.49). 
Si pour À — 1, ..., m quelconque 


lim max qà (4)/ à qÉ (£) = 


chacune des composantes de la APEARS vectorielle y, (x) 


y (x) = Pr 5 Pa (ti) Lx (65)] 


= 1 
est en vertu du théorème de la limite centrale asymptotiquement 
normale, de paramètres (0, I,a;,,) pour l'hypothèse H et de para- 
m 
mètres (yl, > ®;a;x, lyaxx) pour l’alternative X. 
j=1 


Comme pour n — co 
mi {y (x) yE9 (x)}= Tan 


et la matrice I, A est définie positive, en vertu du théorème multi- 
dimensionnel de la limite centrale la statistique (3.51) est asympto- 
tiquement normale, la matrice de corrélation de la distribution 
limite normale à m dimensions étant égale à [,A, et le vecteur des 
moyennes est égal à zéro si x est un échantillon du bruit, et à y; AŸ 
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si x est un échantillon du mélange du signal et du bruit. Par consé- 
quent, le logarithme du rapport de vraisemblance conditionnel (3.49) 
est également réparti suivant une loi asymptotiquement normale de 


paramètres (— T 1,8 A8, YI 50"A8) pour l'hypothèse H et de para- 


mètres (2 1,0", #1,0'A6) pour l'alternative X. 


Si les paramètres Ÿ — (0,, ..., 0.) du signal sont aléatoires 
et que l’on connaisse la distribution conjointe a priori w,, (Ô), 
le développement asymptotique moyenné du rapport de vraisemblan- 
ce (moyenne sur Ÿ du rapport de vraisemblance conditionnel) se 
trouve à partir de (3.49) (rejetant le terme résiduel et utilisant la 
désignation de la statistique (3.51)) *) 


A [y, (x)] = | 1 (x/ 8) wn (8) d9 — 
6 


= (un (8) exp (v8'y. (x)—Ÿ1,8"A8)d8. (3.52) 
8 


Il est intéressant de comparer la formule (3.52) avec (1.32). 
Il y a lieu de remarquer que la distribution de la statistique A [y, (x)} 
obtenue après la prise de moyenne sur @ n’est dans le cas général 
asymptotiquement normale. 

La règle asymptotiquement optimale de détection du signal 
quasi déterministe (3.47) peut maintenant se formuler comme suit: 


O [y, (x) = 1 (le signal est présent) si A [y, (x) >C, (3.53) 
D [y, (x)] = 0 (le signal est; absent) si A [y, (x)}] <C, 


où À [y, (x)] est donné par (3.52), le seuil C et la constante y se 
trouvent pour des probabilités données de fausse alarme & et de 
détection correcte 4 — 6 à partir des relations 


P{A()2C IA} = m {0 [y 1H} = a, (3.54) 
P{A(n)2C IX} = m {0 y, GI KA} = 1— 6. (3.55) 


Portons (3.53) dans (3.54), (3.55); compte tenu de ce que la 
distribution de la statistique y, (x) est asymptotiquement normale 
et des valeurs des paramètres de cette distribution pour l'hypothèse 
H et l'alternative X, on peut écrire sous forme explicite les expres- 


*) Notons que la moyenne est prise non pas sur le paramètre informationnel 
À du signal (pour les problèmes de la détection), mais sur le paramètre perturba- 
teur (voir par exemple 3.1.10). On aurait pu introduire également les para- 
mètres perturbateurs du bruit 6, en se donnant la distribution simultanec du 
signal et du bruit sous la forme w (x; À’s (t), 0) et en prenant la moyenne sur tous 
Jes paramètres perturbateurs. 
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sions de & et 1 — $, après avoir pris la moyenne sur y,, soit: 


(22)7%? (det LA) À T'O()exp{ (5 


Ym 6 
_ yI,A6) A1 (y— vL,A8) w, (8) dû d = | OV 356) 
vi Y—YL m M 1—B, y>0. : 


La formule (3.56) est un système de deux équations par rapport 
à la constante y et le seuil C, celui-ci apparaît dans (3.56) d'une 
manière implicite, par la fonction de décision ® (y), qui dans l’espa- 
ce euclidien des statistiques y, délimite lors de l’intégration le 
sous-espace vérifiant l'inégalité A (y,)2C (voir (3.53)). 


Fig. 3.2. Schéma fonctionnel du détecteur asymptotiquement optimal d'un 
signal quasi déterministe (observations indépendantes). 


Dans le cas où l’on connaît les paramètres 8” — (9,, ..., 0) 
{signal déterministe), la règle asymptotiquement optimale de détec- 
tion prescrit en vertu de (3.49), (3.51) la comparaison avec un seuil 
de la statistique Ÿ’y, asymptotiquement normale de paramètres 
(0, [,0’A8) pour l'hypothèse H et de paramètres (y1,8’A@, [,0 A6) 
pour l'alternative X. 


3.1.7. Interprétation de l'algorithme asymptotiquement optimal 
de détection d'un signal quasi déterministe noyé dans un bruit indé- 
pendant. En vertu de (3.53), le détecteur envisagé peut être réalisé 
à l’aide de deux blocs (fig. 3.2). Le premier bloc est un calculateur 
des composantes de la statistique vectorielle y, d’après (3.51) 


y® (x) = = D Pu (ti) fl (ti)]. (3.57) 
i=1 


Le second bloc du détecteur sert à calculer, d'après une distribution 
donnée des paramètres du signal, le rapport de vraisemblance moyen- 
ne conformément à (3.92). 

En comparant (3.57) et (3.9) on voit que le schéma de la figu- 
re 3.1 (sans dispositif à seuil) peut être utilisé en tant que bloc de 
calcul de la composante k de la statistique y,, à condition de rempla- 
cer le signal déterministe s ({) par le signal ®, ({). Ainsi, le premier 
bloc du détecteur d’un signal quasi déterministe dépendant de m 
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paramètres se compose de m sous-blocs identiques (fig. 3.1, sans 
dispositif à seuil). 

Notons que la caractéristique f (x) des éléments non linéaires 
du premier bloc, ainsi que la grandeur du seuil dépendent de la 
forme du bruit et de son mode d'interaction avec le signal. La carac- 
téristique du bloc de moyennage ne dépend que de la distribution 
des paramètres du signal. 


3.1.8. Algorithme asymptotiquement optimal de détection d’un 
signal modulé de phase aléatoire. Considérons un signal à bande 
étroite Às ({) de phase initiale aléatoire y,, modulé en amplitude, 
en phase et en fréquence: 


s(t) — a (t) cos Lwot + 4 () — pol. (3.58) 
Avec les désignations 
Ÿ1 = COS Pos Ve — Sin Po, (3.59) 
P1 (#) = a (t) cos lost + (E)], (3.60) 
ge (4) = a (8) sin Lost + (0), (3.60°) 
e signal s'écrit comme suit: 
5 (6) = Diqn (#) + Dee (1). (3.61) 


Il est clair que c’est un cas particulier d’un signal quasi détermi- 
niste (3.47) du type général pour m = 2. 


Ainsi, dans le cas envisagé la statistique vectorielle Yn est bidi- 
mensionnelle de composantes 


y (x) == S'att)fiz(thlcosloi+p(t)l, (3.62) 
i=1 

yn (X)=—— 7 = S'alti)fiz(tisintonti+wp(tl. (3.62) 
= À 


La distribution lité des variables aléatoires y{1), y{*) est 
asymptotiquement normale de matrice de corrélation Î;A, où ÎI, 
est donné par (3.5) et les éléments de la matrice A sont (voir (3.50)) 

T 


au =lim 7] a? (t) cos? [wo (£) + (£)] dt, 
Ay2 — Go, = DT | a? (£) cos [wot + W (£)] sin [wot +  (t)] dt, 


T 
Ano = lim _ a? (t) sin? [ot + (t)] dt. 


10—0165 
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Mais le spectre de la modulation d'amplitude étant étroit par 
rapport à la fréquence porteuse (ce qui permet de dire que le signal 


1 


est à bande étroite), on a 


T 

au lin { a2(#) dt= W,/2, (3.63) 
To û 

Gy2 = ri = 0, (3.63°) 


où W, est la puissance du processus de modulation en amplitude. 
La condition (3.63”) signifie que les variables y{! et y{?) sont indé- 
pendantes. 

Les valeurs moyennes des variables y{!), y{*) sont nulles pour 


SJ 


l'hypothèse F, et pour l'alternative X sont égales à 
mi{yn | K}— sA I: W, cos po, (3.64) 


ma {un | K}= LI, Wa Sin Po- (3.64') 


Supposons que la phase aléatoire , soit répartie uniformément 
sur l'intervalle (0,2x). La distribution simultanée des variables 
Ÿ, —= cos Po. 2 —= sin p, est alors (voir tome I, page 95) 


ER _V1=$ 
Le (91, V2) =— FE 5 (9: — V1 — 8). (3.65) 
Ensuite, dans le cas — on a 
Ê’A 2 Po+ sin? (3.66) 


En substituant (3.62), (3.62”), (3.65), (3.66) dans (3.52) on ob- 
tient l’expression suivante pour la moyenne du rapport de vraisem- 
blance : 


a6= | ee LE As 06: VT— 5) x 
x exp Dies + pan — D IW) d8, dd: = 


me tipo RP Le exp (vyn cos p—+ yyn sin p) d 
0 


ou 


A(yn)=e Nat 1 (y Vu y). (3.67) 
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En vertu de (3.67), le rapport de vraisemblance moyenné est 
une fonction monotone de la statistique 


| Yn p=i [{ > a(t:)f{xz(ti)lcos [oot: + &:11} e 
i=1 


+ {5 a (4) f1z (41 sin [oct + &)1}°]. (3.68) 
i—!1 


La formule (3.68) peut s’écrire sous la forme d’une somme double 


F » à a(t)a(t;) f[z(ti)l X 


it J=tI 


| Ynl?= 


X fIz(tj)lcos(oo(ti—t;)+wb(ti)—#(t;)]. (3.69) 


La règle asymptotiquement optimale de détection du signal (3.58) 
de phase aléatoire uniformément répartie s’énonce comme suit: 
on prend la décision que le signal est présent si *) 


ImMmFz>C, (3.70) 


et la décision que le signal est absent si c’est l'inégalité inverse 
de (3.70) qui est vérifiée. La statistique |y, |? se calcule à l’aide 
de (3.68) ou (3.69). Notons qu’elle ne dépend pas de la constante y. 

Les variables asymptotiquement normales yl!), y) étant indé- 
pendantes, de moyennes nulles pour l'hypothèse FH, la somme normée 
de leurs carrés est, pour cette hypothèse, répartie suivant la loi du 
X° à deux degrés de liberté (suivant la loi exponentielle). Autrement 
dit, la densité de probabilité de la variable aléatoire 2 | y, [?/(1;W.) 
est égale à 


w(z)=1/2e-%?, 2>0. (3.71) 


Ceci permet de trouver très simplement la grandeur du seuil C 
dans l'inégalité (3.70), car pour une probabilité donnée de fausse 
alarme & on a 


21 Yn l? 219 
P {= LN- > H}=1/2 e-2/2 di =exp( =} = a, 
2CHÉ No) 
d’où l’on trouve 
= (1,W3,/2) In 1/a. (3.72) 


*) Si dans (3.69) on rejette les composantes haute fréquence, (3.70) peut 
s'écrire comme suit: 


T 
D S a (ti) f°{z (til — _ | a (t)f{z(t))d >cC. 


ic! 0 
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Il est assez difficile de calculer la probabilité de détection cor- 
recte, car pour l'alternative X les moyennes des variables aléatoires 
asymptotiquement normales yt!) et y!=) qui restent indépendantes, 
ne sont plus nulles comme il ressort de (3.64) et (3.64”). Dans ce 
cas, la densité de probabilité de la somme normée des carrés de 
y() et y!°), c’est-à-dire de la grandeur 2 | y, [*/(1:W.) est de la 
forme (voir tome ÎÏ, page 356): 


w (2) =+ exp[ —(:+À Wa )/2 |] Lo X 


x (rs), z>0. (3.73) 


En posant y* = z, la fonction (3.73) devient la fonction généralisée 
de la repartition de Rayleigh (voir tome I, page 107). La probabi- 
lité de détection correcte est 


1—p—— | exp[ — (2+H1,W,)/21 10 (VV I Waz/2) dz, 
2CHL$W ) 


d’où 


DE 1 = 
48 = = Vin mt (3.74) 


où z1-8 est l’1 — B-quantile de la loi généralisée normée de Rayleigh 
de paramètre y*I,W,/2. 


Fig. 3.3. Schéma fonctionnel du détecteur asymptotiquement optimal d'un 
signal à bande étroite (observations indépendantes). 


En vertu de (3.68), le détecteur asymptotiquement optimal d’un 
signal modulé de phase aléatoire uniformément répartie doit avoir 
deux canaux en quadrature, où sont calculées les sommes corré- 
lationnelles de la forme (3.9), l’une suivant les composantes en phase 
et l’autre des composantes en quadrature du signal. Puis, comme 
toujours pour la réception incohérente, on a des détecteurs qua- 
dratiques, un sommateur et un dispositif à seuil (fig. 3.3). Le schéma 
diffère du schéma analogue d’un détecteur d’un bruit normal additif 
par la présence de convertisseurs non linéaires d'entrée de caracté- 
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ristique f (x). Pour conclure, remarquons qu’il est possible de ne pas 
exiger que la phase aléatoire q, du signal soit uniformément répar- 
tie. 11 suffit de supposer que la phase œ, soit une somme de phases 
indépendantes, l’une ayant une répartition quelconque et l’autre 
suivant une loi uniforme. Dans ce cas, on peut utiliser la proposition 
suivante (voir problème 3.7 dans le tome Î): soit £ la somme de deux 
variables aléatoires indépendantes continues dont l’une est unifor- 
mément répartie sur l'intervalle (—a, a) et l’autre ayant une répar- 
tition arbitraire. La densité de probabilité de Ë, rapportée à l’inter- 
valle (—a, a), est alors toujours uniforme. 


3.1.9. Algorithme postdétecteur asymptotiquement optimal de 
détection d'un signal modulé de phase aléatoire (méthode d'amplitude). 
Nous allons passer à l’étude des algorithmes de détection de signaux 
appliqués à des processus à bande étroite ayant subi, avant le traite- 
ment optimal, une démodulation d'amplitude ou de phase. Considé- 
rons tout d’abord l’algorithme asymptotiquement optimal de dé- 
tection du type (3.58) utilisant la statistique des valeurs échantil- 
lonnées indépendantes qui sont des valeurs de l’enveloppe du pro- 
cessus observé. 

Soitr — (r,, ..., r,) un échantillon de l'enveloppe du processus 
observé qui est soit l'enveloppe d’un bruit stationnaire aléatoire 
à bande étroite, soit l'enveloppe du mélange du bruit et du si- 
gnal (3.58). Désignons par W, (r; 0) la fonction de répartition de 
l'enveloppe du bruit et par W, (r; Ô) la fonction de répartition de 
l'enveloppe du mélange du signal (3.58) et du bruit avec 


8 = Aa (t) = va’ ()V nr, mA >0, (3.75) 


pour un instant { donné, où y, = À, Vn est une constante positive 
bornée. En vertu de (3.75) le paramètre Ÿ est proportionnel au carré 
de l'enveloppe du signal. Comme la fonction de répartition du mé- 
lange de l’enveloppe et du bruit dépend du paramètre non négatif Ÿ, 
la forme (3.75) est naturelle parce que le développement de cette 
fonction en série de Taylor suivant les puissances de a ne contient 
pas de puissances impaires. C’est pourquoi en adoptant (3.75) au 


lieu de Ô — Àa (t) on évite que la dérivée — W, (r; Ÿ) soit identi- 


quement nulle pour Ÿ — 0 (voir (3.4)). 

On peut maintenant, en utilisant les résultats de 3.1.3, écrire 
l'algorithme asymptotiquement optimal postdétecteur (cas de la 
démodulation d'amplitude) du signal (3.58) noyé dans un bruit 
stationnaire 


® (r) — 1 (le signal est présent) lorsque y, (r)>C, 
O (r) = 0 (le signal est absent) lorsque y, (r} < C, (3.76) 
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où 
Unm= > Qf fa (ri) ; (3.77) 
Vn = _ | 
” = 4 _ i = 1, sh: (3.78) 
Ja (r) = FT À . W, (r; Ô) [o=; La (r) É 0, (3.79) 
avec 


miffa(r)| H}= | fatr)Witr:;0)dr=0, (3.80) 


L=mf()lÆ}= | RW; Odr<0. (3.81) 
0 


La statistique (3.77) est asymptotiquement normale de 
paramètres (0, Wa:l;,) pour l'hypothèse H et de paramètres 


(Ya Wa:ly,s Wal;) pour l'alternative X, où 


n 
di À 
Wa=lim— Dai lim+ 


nt — 00 : To 
1—={ 


| aï(#) de, Wa<0. (3.82) 
0 


Le seuil C dans (3.76) pour une probabilité donnée de fausse 
alarme «& est donné par 


GC = La V I, We, (3.82°) 


où zx, est l’a-quantile de la loi normale. 
La probabilité B de perte du signal est liée à la probabilité @& 
de fausse alarme par une relation analogue à (3.18): 


(ta — 218) = Vi Wi. (3.83) 


Le coefficient d'efficacité asymptotique relative de l’algorithme 
postdétecteur (3.77) par rapport à l'algorithme prédétecteur (3.13) 
est, en vertu de (3.18’) et “a égal à 


VI : 
_ Waëlje y 8 
p=- Wal 1 À° r = Ù 


car À5 — À. 

Envisageons à titre d'exemple le problème de la détection du 
signal (3.58) noyé dans un bruit normal additif à bande étroite de 
valeur moyenne nulle et de variance 0“. Dans ce cas, dans l’envelop- 
pe, le signal et le bruit ne sont pas additifs. L’enveloppe du mélange 
du signal et du bruit est répartie suivant la loi généralisée de Rayleigh 


r2+0 + 
Witr; 8)= Le I (2) 0) (3.84) 
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et l'enveloppe du bruit suit la loi de Rayleigh 
Wi(r:0)=Te-2, r>0. (3.85) 
Portons (3.84), (3.85) dans (3.79), il vient 
_-0/°9? ryè : 
RU=[e "st (ES) |, = 


Ÿ: 
1-02] AA Ô 67 — 
=[-sreters (6) + en (KO), 
et compte tenu de I, (x) = + o (x) pour des zx petits, on obtient 
fa (r) = (r" — 20°)/(4of). (3.86) 


En substituant (3.86) dans (3.77), on obtient la règle asympto- 
tiquement optimale suivante de détection du signal (3.58) dans un 
bruit additif stationnaire : le signal est dise si 


=. > airi > (3.81) 


Dans ce cas la quantité d’information d'après Fisher est en 
vertu de (3.81) et (3.86) égale à 


[s,») 


1 2 nn. 1 
Ir, — Zi | u(=—1) eu*/2 du = Ta (3.88) 
0 
à l’aide de (3.82°) l'inégalité (3.87) peut alors s’écrire 
! an : _ ; n . 
2 ÿ af ri >20°? (ze V Wa: er >, ai ) . (3.89) 


i=1 i— 1 


3.1.10. Algorithme asymptotiquement optimal postdétecteur de 
détection d’un signal modulé de phase aléatoire (méthode de phase). 
Considérons l'algorithme asymptotiquement optimal de détection 
d'un signal du type (3.58), utilisant une statistique de valeurs 
échantillonnées indépendantes 6 — (6,, . .., 06,) de la phase du 
processus observé, qui peut être soit la phase d’un bruit stationnaire 
à bande étroite, soit la phase du mélange de ce bruit et du signal. 

Fixons tout d’abord la valeur de la phase aléatoire (® = 0) 
et désignons par W, (8; O) la fonction de probabilité de la phase 
du bruit, et par W, (6; Ÿ) celle de la phase du mélange du signal 
et du bruit et remarquons que pour un instant donné {on a 


$ —a(t) = ya(t)/Vn, A>0, (3.90) 
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où y = À V n est une constante positive bornée. A la différence de 
(3.75), dans le cas envisagé le paramètre Ô est proportionnel aux 
valeurs de l'enveloppe car le développement W, (8; Aa) contient 
un terme linéaire en a. 

En utilisant les résultats de 3.1.3, nous pouvons écrire l’algo- 
rithme postdétecteur (après démodulation de phase) asymptotique- 
ment optimal de détection d’un signal du type (3.58) (pour q, = 0 
noyé dans un bruit stationnaire: 


D (8) — 1 (le signal est présent), y, (8)>C, 


| ® (6) = 0 (le signal est absent), y, (8) <C, (3.91) 
où 


Yn (8)= =. > afe(@), a=a(ti), (3.92) 


fe (6) = 76707 26 W1(0, 0)[ f(0)#0, (3.98) 


avec 


mi {fs (8)1 4}= | fx (8) W:(8, 0) d8—0, (3.94) 


— 1 


L,= mi {fà (6) 1 H}= Î 1$(8)W:(8, 0)d8< oo. (3.95) 


— 


La statistique (3.92) est asymptotiquement normale de para- 
mètres (0, W,Ï,,/2) pour l'hypothèse AH, et de paramètres 
(VWal;s/2: W pe /2) pour l'alternative X, où 

T 


_ lim - — S ai — — lim 17 | a? (1) dt, (3.96) 
i=! Ü 
car la bande passante F, de l’enveloppe est deux fois plus étroite 
que la bande passante F du signal (n — 2FT = 4F,T). 
La grandeur du seuil dans (3.91) pour une probabilité donnée « 
de fausse alarme est donnée par 


C=z.V I, Wa/2, (3.97) 


où z, est l’a-quantile de la loi normale. La probabilité f de perte 
du signal est liée à la probabilité de fausse alarme & par une relation 
analogue à (3.83): 

(Te 7 Z1_-p)? = VI, Wa/2. (3.98) 


Le coefficient d'efficacité asymptotique relative de l’algorithme 
postdétecteur (3.92) (pour la phase initiale donnée) par rapport 
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à l'algorithme (3.13) est en vertu de (3.18) et (3.98) égal à 
p=l;,/1;, (3.99) 


car 
T 


T 
W,= lim + | s2(4) dt lim | a2(4) cos? ut dt 0. 
T— t T—% A = 


Si la phase , est aléatoire et uniformément répartie sur l’inter- 
valle (—x, x), en vertu de (3.52), en prenant la moyenne sur la 
phase, on obtient: 


| C 2 
Alyn (8)=— | exp {vu (8—po)— 1, Wa} do. (3100) 


—T 


La règle asymptotiquement optimale de détection après la de- 
modulation de phase se formule comme suit : le signal est présent si 


A [y (8) >C. (3.101) 


La valeur du seuil C et la constante y satisfont au système d’équa- 
tions 


P {A lyn (6)2C | H} = a, 
P {A [y, (8)) << C | X} = 8. (3.102) 


A titre d'exemple considérons le cas d’un bruit normal additif 
à bande étroite de valeur moyenne nulle et de variance 6°. La distri- 
bution de la phase du mélange du signal (3.58) (pour @, = 0) et 
du bruit est dans ce cas (voir tome I, page 362) 


W, (0, = e-on20 + 


Ÿ 
+7 cos (0— v) F[< cos (8—%) |exp{ — 2 sin2(8—)}. 
[ÈÊ—pI<x, (3.103) 


la distribution de la phase du bruit étant uniforme sur l’interval- 
le (—1x, x): 


W, (8: 0)=——. (3.103') 
À partir de (3.93) on obtient 
fe(6)=2 7 cos (8—v) (3.104) 
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et par conséquent *) 


Yn (0) = ARE Da ces (8 —p)=7/ <AncosD,, (3.105) 


A, = | = = e"®;-vp | (3.106) 
n e 
J=1 


71 n . 
D,=arctg{Im > aje"%7Ÿ)/Re D ae 5 Ÿ?]. (3.107) 
J=! j=1 
La quantité d’information d’après Fisher est 


T 

1 e. 
= À cos? (8— y) do. (3.108) 

7 


Ÿ 


Dans ce cas (pour une phase initiale donnée) le coefficient d'effi- 
cacité asymptotique relative de l'algorithme postdétecteur (3.105) 
par rapport à l'algorithme prédétecteur (linéaire pour un bruit 
normal additif) conformément à (3.99) et (3.108) est égal à _. = 0,78. 

Si la phase œ, du signal est aléatoire, en exprimant y, (60 — ,) 
de (3.100) par (3.105), portant (3.108) dans (3.100) et en prenant la 
moyenne sur la phase uniforme, on obtient: 


A ln (8) 10 (+ Y/ + An) e 


Le rapport de vraisemblance moyenné A [y, (0)] étant une fonction 
monotone de la statistique À4,, l'algorithme postdétecteur (de 
phase) asymptotiquement optimal peut s’écrire comme suit **): 
Je signal est présent si 


2 
1 <— Y'Wa/o? 


(3.109) 


1 A 0 Cv) | 

ÉDELR >c. (3.110) 
ii 

La distribution de la variable aléatoire À, tend vers une loi 

de Rayleigh de paramètre W,/(20*) en l'absence de signal (hypo- 


*) Notons que l'algorithme (3.105) est non paramétrique par rapport à la 
classe des bruits caractérisés par une densité de probabilité simultanee de l’en- 


veloppe et de la phase de la forme w. (r, 6) = w, (r) pour w (r) quelconque 


{voir [17]). 
**) Remarquons que l'algorithme (3.110) est non paramétrique dans le même 
sens que l'algorithme basé sur la statistique (3.105). 
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thèse 2 et vers une loi de Rayleigh généralisée de paramètres 


+ Ve 2e LE en présence du signal (alternative Æ) (voir tome If, 


page 304). Par conséquent, pour des probabilités données & de fausse 
alarme et f de perte du signal, les grandeurs C et y satisfont aux 
équations suivantes: 


(3.111) 


B=exp(—-<v<) | re-<:21, (y ] + — z)dr. (3.112) 
0 


3.1.11. Distribution normale des paramètres du signal. Revenons 
aux algorithmes prédétecteurs asymptotiquement optimaux. Con- 
sidérons maintenant le cas des signaux avec un nombre quelconque 
de paramètres indépendants et supposons que leur distribution 
simultanée soit normale, de vecteurs des moyennes Ÿ,et de matrice 
de corrélation diagonale DI donnés. En utilisant (1.33) avec des 
changements de désignations requis, on trouve que dans le cas envisa- 
gé le rapport de vraisemblance moyenné (3.52) est une fonction 
monotone de la statistique 


, ’ l ’ ü 
di (a) = YA ya — (ÿn — VIA 0) (A+ v2-t A'A) (uv A 8). 
(3.113) 


Les éléments de la matrice A sont donnés par (3.50) et la statisti- 
que y, par (3.51). 

Avant de formuler la règle de détection du signal et de chercher 
la distribution de la statistique 1, (y,) qui nous permettra de trouver 
le seuil C et la constante y, nous allons restreindre la classe des 
fonctions de base æ; (t) du signal. Supposons que ces fonctions soient 
asymptotiquement orthogonales et normées, c'est-à-dire 


ra 
14 
Jim T Pj(£) pa (£) dt = jus (3.114) 


où Ô;, est le symbole de Kronecker. En vertu de (3.114), la matrice A 
est unitaire. La statistique (3.113) s'écrit alors 


; D , 
Wi(Yn) = YnYŸn DE (Yn —YL00) (Yn —Y1;00). (3.115) 


En rejetant dans (3.115) les termes constants qui ne dépendent 
pas de la statistique y, et en complétant l’expression qui reste 
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jusqu'à obtenir un carré complet on arrive à 


Ge [rn++ dl = X (+5 00)", (8416) 
j=1 


où y) est la composante de la statistique y, correspondant à la j-ième 
fonction de l'échantillon du signal (voir (3.57)); 8; est la j-ième 
composante du vecteur des valeurs moyennes des paramètres du 
signal. 


Fig. 3.4. Schéma fonctionnel du détecteur asymptotiquement optimal d'un 
signal dans un processus ayant subi une démodulation préalable (observations 
indépendantes). 


La règle asymptotiquement optimale de détection d’un signal 
peut maintenant être formulée comme suit: le signal est présent si 


m 
mn Z (y +200) >C, (3.117) 
I —= 
et iln’y a pas de signal si c’est l’inégalité inverse qui est vérifiée. 
La statistique (3.117) est la somme des carrés de variables aléa- 
toires indépendantes asymptotiquement normales de même variance 
(unité) et de valeurs moyennes différentes. Pour l’hypothèse A, 
lorsque les valeurs moyennes des y) sont nulles, cette statistique 
est répartie suivant une loi du 7* non centrée à m degrés de liberté 
[22], le carré du paramètre d'écart étant égal à 
2 AE D° 2 
HO) == lol (3.118) 
La réalisation pratique de l'algorithme (3.117) est assez simple 
(fig. 3.4). Les m calculateurs spéciaux fournissent les composantes 
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du vecteur y, auxquelles s'ajoutent des constantes données, les 
sommes attaquent des dispositifs d’élévation au carré puis un som- 
mateur commun. La valeur de la somme finale est comparée à un 
seuil. 

La densité de probabilité W, (2; m, 6) de la loi du 4° non centrée 
peut être exprimée en fonction de la densité de probabilité 
W, (z; 1, 0) de la loi du #° centrée: 


W,(z: m, = e-r2 S L (+) Mit: m+21,0). (3.119) 


[=0 


Pour Ÿ donné et l'alternative Æ, la valeur moyenne du vecteur y, 
est égale à à v1,0 et par conséquent la statistique (3.117) est egale- 
ment répartie suivant une loi du 4° non centrée à m degrés de liberté, 
de paramètre d'écart ns à 


k (v) = 2 (+ VLo+—— me da) | (3.120) 


Si Ÿ, sont des variables aléatoires indépendantes normales de 
même variance D et de moyennes 8, à — 1, ..., m, alors 
ô% (v)/(y*1;D) est une variable aléatoire qui suit une loi du 4° non 
centrée à = degrés de liberté et de es d'écart égal à 


SE (N=T(1+-7) 100f. (3.121) 
Le moyennage de la densité de la loi du 4° non centrée suivant le 


paramètre d'écart donne la double somme suivante contenant la 
densité de la loi du x“ centrée (comparer avec (3.119)) : 


W (z; mm, OX) — [ W, (z; mm, Ôx) W,, (Ôx) dôyx = 


-35 


a ————————"—".——— (=) e Ey, (z;, m+2r, O0). 
0 0 T'EH DT U+ NT (EE) 


(3.122) 


On peut écrire maintenant le système d'équations donnant la 
constante y et le seuil C dans l'algorithme (3.117) pour des probabili- 
tés données & de fausse alarme et 1 — f de détection correcte. On a 


a= P{y2(m, 6) > CIA}= | Wi(& m, ôw)dz, (3.123) 
C 
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d’où l’on tire 
C=yxalm, 6h (v)], (3.124) 


c'est-à-dire que le seuil coïncide avec l’a-quantile de la loi du 4° 
non centrée dont le paramètre d'écart est donné par la formule 
(3.118). La probabilité de détection correcte se trouve à partir de 
(3.122) : 


1—B= | W,(z: m, Ô%) dz, 
0 


d'où 
C—=%x1-5p{[m, Ôk(Y)], (3.125) 


où 1-8 est l’1 — f-quantile de la loi donnée par (3.122). Tenant 
compte de (3.124), on peut écrire (3.125) comme suit: 


am, ôn(v)]=%1-s1m, OK (v)] (3.126) 


et utiliser (3.126) pour calculer la constante y et puis le seuil C 
conformément à (3.124). 


3.1.12. Détection d'un signal stochastique. Les résultats du 
paragraphe précédent peuvent être utilisés pour trouver l'algorithme 
asymptotiquement optimal de détection, dans un bruit indépendant, 
d’un signal stochastique E ({) qui représente un processus aléatoire 
normal de moyenne nulle et de fonction de corrélation donnée 
B (t, y). On sait (voir tome II, $ 3.3) que ce signal peut s’écrire com- 
me un développement orthogonal sur l’intervalle d’observation 
(0, T) 


E (4) 2 Dipi (£), (3.127) 
T 
d,— | E (u) q:(u) du, (3.127°) 


0 


où {p; (t)} est la base orthonormée déterminée par les fonctions 
propres de l’équation intégrale homogène linéaire 


T 
pU=Ai(B( nya, 0<I<T. (3.128) 
0 


Les paramètres 0, 0, . .., forment un ensemble (dénombrable} 
de variables aléatoires normales indépendantes de moyennes nulles 


3.1] ALGORITHMES ASYMPT. OPTIMAUX, OBSERVATIONS INDÉPENDANTES 159 
et de variances 1/1, 1/À+, . . ., car en vertu de (3.128) on a 
TT 
mi {8107}=ms { | À E(u)E (8) où (u) o, (0) du dv} — 
0 0 
T 


B(u, v) qu(u) ,(v) du do = À qu(u) q, (u) du = 65. 


0 


Cr +] 


En comparant (3.127) avec (3.47) on remarque que le signal 
stochastique E ({) a la même structure que le signal quasi détermi- 
niste si l’on pose »m — co. La différence est en ce que le vecteur de 
dimension infinie Ÿ a un vecteur moyenne nul et une matrice de 
corrélation Ko diagonale dont les éléments 1/À; ne sont pas égaux 
entre eux. 

Dans le cas envisagé le rapport de vraisemblance moyenné (3.52) 
est une fonction monotone de la statistique 


Ve (Yn) = YaYn — Yn (L+ Y°1,Ko)7! yh. (3.129) 


En utilisant la règle d’addition des matrices, la matrice Ko étant. 
diagonale, on peut écrire (3.129) comme suit: 


Ÿ2 (Yn) = > Rr & Ge (3.130) 


où y!*) est la composante du vecteur y, donnée par (3.57). 
Introduisons la fonction 


_P3 @) Es (y) 
RG y=r 2 RE, (3.131) 


Il est facile de voir par rs substitution que la fonction 
h (t, y) satisfait à l’équation intégrale suivante: 


Î ho 5) Blu, Day+ RE, v)= 


© 


=B(t,v),, 0LI<T,O<v<LT. (3.132) 


En vertu de (3. 57), (3. 130) et (3.131), la statistique 1. (y,) peut 
dans le cas envisagé s'écrire comme suit: 


V2 (Yn) = + S S ht, t)flz(t)lflz(t)l (3.133) 


4=1 j=1 


L’algorithme asymptotiquement optimal de détection d’un signal 
stochastique (3.127) prescrit la comparaison de la statistique (3.133) 
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avec un seuil. Autrement dit, le détecteur asymptotiquement optimal 
d'un signal aléatoire normal, de fonction de corrélation donnée, 
noyé dans un bruit stationnaire indépendant, de fonction de réparti- 
tion quelconque, réalise le filtrage non linéaire des données échantil- 
lonnées qui ont subi une transformation non linéaire f (x), et une 
comparaison à un seuil. La fonction de pondération du filtre non 
linéaire *) dépend de la fonction de corrélation du signal (voir (3.132)). 

Si le bruit est additif et réparti suivant une loi normale, on 
a f (x) = x/0°, et la règle de détection que nous venons de formuler 
coïncide avec la règle bien connue de détection d'un signal normal 
noyé dans un bruit blanc normal (voir tome II, 5.3.3). 


3.2. ALGORITHMES DE RANG ASYMPTOTIQUEMENT OPTIMAUX 
DE DÉTECTION DES SIGNAUX NOYÉS 
DANS DES BRUITS INDÉPENDANTS 


3.2.1. Equivalence asymptotique des statistiques de rang et des 
statistiques non ordonnées. Dans le second chapitre nous avons envisagé 
les algorithmes de rang et de signe-rang de détection des signaux 
pour des tailles finies de l’échantillon. La synthèse des algorithmes 
de rang et de signe-rang, optimaux d'après le critère de Neyman- 
Pearson, de détection des signaux pour des tailles finies de l’échantil- 
lon présentant des difficultés mathématiques insurmontables, on 
choisit l'algorithme d’une manière purement heuristique. À titre 
d'exemple d’algorithmes proposés d'une manière heuristique on peut 
citer les algorithmes de Wilcoxon, de Van der Waerden, celui des 
médianes et autres envisagés dans le chapitre 2. On comprend donc 
l'intérêt des méthodes asymptotiques pour la synthèse optimale des 
dispositifs de détection utilisant des algorithmes de rang. 

Comme nous l'avons déjà dit (voir 1.2.10), l'algorithme asympto- 
tiquement le plus efficace de détection d’un signal noyé dans un bruit 
ne peut être déterminé d’une manière univoque. Il peut exister 
toute une classe d’algorithmes de ce genre équivalents par leurs 
propriétés asymptotiques. Tous les algorithmes de cette classe pour 
des échantillons de grandes tailles ont mêmes caractéristiques de 
détection des signaux faibles. Sous certaines conditions, cette classe 
comporte également des algorithmes non paramétriques de détection 
des signaux (de rang et de signe-rang). Autrement dit, avec certaines 
limitations imposées à la structure des signaux et des bruits, il 
existe des algorithmes de rang et de signe-rang asymptotiquement 
les plus efficaces qui, de par les caractéristiques de détection, sont 
équivalents (pour des échantillons de taille importante et des signaux 


*) Il s’agit d’un filtre non linéaire du second ordre (voir tome II, page 258 ) 
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faibles) aux algorithmes simples *), optimaux d’après le critère de 
Neyman-Pearson. 

À première vue, cette assertion semble peu fondée, car lorsque 
l’on passe d’un échantillon intègre à ses rangs, une partie de l’infor- 
mation obtenue lors de l'observation se perd irrémédiablement. 
Et pourtant nous allons prouver, avec toute rigueur mathématique, 
qu’il existe des algorithmes de rang asymptotiquement optimaux 
aussi bons que les algorithmes simples. Notre certitude est basée sur 
les propositions fondamentales suivantes de la mathématique sta- 
tistique. 

Comme l’élément de l’échantillon x; coïncide avec la statistique 
d'ordre x‘), la densité de probabilité conditionnelle de l'échantil- 


lon x; pour un rang donné est égale à la densité de z%. Pour un 
échantillon de taille x issu de la distribution w, (x) on a à l’aide 
de (2.40°) 


(nl = R)= uw, (30) $ 


RG R) * 
XLF(2)l" 7" 1—Fi(x)]" ui(z), (3.134) 


où Fi(r)= | w, (x) dx, 


Introduisons la variable aléatoire 
RDF, [er]. (3.135) 


Comme nous l'avons déjà remarqué dans 2.1.2, si F;, (x) est la 
fonction de répartition de l'échantillon zx;, la variable aléatoire 
u (R;) définie selon (3.135) est répartie uniformément sur l’interval- 
le (0, 1). En introduisant le changement de variable (3.135) dans 
(3.134), on obtient la densité de probabilité de la statistique d’ordre 
à partir de la répartition uniforme 


| _ n- 
eme "Au, 0<u <1 
1<R<n. (3136) 


Il est facile de trouver la valeur moyenne et la variance de u{R). 
Comme pour m et n entiers positifs quelconques on a 
1 


n JL min! 
jaG—a den 
0 


u” tu) _ 


*) Nous employons le terme « algorithme simple » pour désigner un algo- 
rithme qui traite des échantillons tels quels, non spécialement ordonnés, et nous 
appliquerons le terme « algorithme de rang » à un algorithme prévu pour des 
échantillons ordonnés.— Note du rédacteur. 
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en vertu de (3.136) 
R 


mu®}=, 1<R<R, (3.137) 
M, Qu) HORS, 1£<R<n. (3.138) 
A partir de (3.135),:(3.137) et (3.138), on trouve 
mm {F1 (Gi) | R: = R} = R/(n + 1) (3.139) 
et pour » suffisamment grand 
M: {PF (x) | Ri = R}- R/n*°. (3.140) 


Autrement dit, pour #7 suffisamment grand, la variable aléatoire 
F, (x;) s'écarte peu, en probabilité, de sa valeur moyenne égale 
à Ri/(n + 1), ce qui découle par exemple de l’inégalité de Tchéby- 
chev (voir tome I, page 71). Il en découle l'équivalence asymptotique 
de l'élément de l'échantillon x; et de la valeur convertie du rang 
F5; (5) , Si toutefois F3! (z) est la fonction inverse de la fonction 
de répartition de la loi à laquelle appartient l’échantillon. Donc les 
algorithmes de rang asymptotiquement optimaux de détection des 
signaux noyés dans des bruits indépendants peuvent être obtenus 
à partir des algorithmes asymptotiquement optimaux simples par 
la substitution 


an Fi (T5). (3.141) 


Nous allons maintenant formuler d'une manière plus rigoureuse 
les conditions pour lesquelles les statistiques de rang et simples sont 
asymptotiquement équivalentes. Définissons sur le segment (0, 1) 
la fonction A (u) satisfaisant aux conditions suivantes 


l 
['AG&)du=0,  [AZ(u) du < oo, (3.142) 


0 0 


et la fonction en escalier 


au= (ir), ue, +): 
k=1, cs 7, (3.143) 


avec 


{ 
lim | [A4 (u)— A (u)1° du =0. (3.144) 


(1 
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Soit s; une suite de nombres telle que, pour x quelconque 


+ D sil <c< oo, (3.145) 
Vri 
cu a s/ 2 “eo GS 


et supposons que l’on ait un échantillon indépendant u,, . .., uh, 
issu d’une répartition normale sur l'intervalle (0, 1), R;3 étant le 
rang de l'élément uv; dans cet échantillon. On peut alors montrer 
l'équivalence asymptotique des deux statistiques *) (voir par 
exemple ([3]) 


n 


PATES Un) = D siA (us) (3.146) 
et 
_ __ k | R; 
AU Ri)= 7 2 she GE ), (3.147) 
c'est-à-dire _ 
Vi sess U)= 2; (Ris 522, R;) ET, (3.148) 


où Y%, Converge en probabilité vers zéro pour r —+ co. 


3.2.2. Algorithme de rang asymptotiquement optimal de détection 
d'un signal déterministe. Définissons la fonction! À (u) introduite 
ci-dessus comme suit : 


AQu)=f{F;"(u)}, 0<u<1, (3.149) 


où‘ (x) est une fonction donnée par la formule (3.4) et Fi! (u) est 
la fonction inverse de la fonction de répartition du bruit 


7 


F; (y) = Î wi(z; O0) dx. (3.150) 


I1 est évident que la fonction A (u) définie par (3.149) satisfait 
aux conditions (3.142) car après le changement de variable x — 
— F-l(u), on obtient 


e 


| 00 
Jfrr (u)] du — \ f(z)wi(x|0) dr —0 (3.151) 


—©œ 
*) On prouve ici l’'équivalence asymptotique des statistiques de ras et 
simple pour la répartition uniforme. Dans le paragraphe suivant nous allons 


montrer comment ce résultat peut être utilisé pour démontrer l’équivalence men- 
tionnée pour une répartition quelconque. 


11% 
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et aussi (voir (3.5)) 
co 
À F2LF-1(u)] du = | f(x) wi(x; O)dx =1; <oo. (3.152) 
0 —æ 


Comme nous l'avons déjà noté, à l'échantillon indépendant 
Lis + + + En du bruit de distribution w, (x; 0) correspond l’échantil- 
lon indépendant w,, ..., u, de la répartition uniforme si zx, — 
= F"1{(u,). Soit s,, . .., s, une suite de valeurs du signal détermi- 
niste s (t), pour { — t,, . .., t,, satisfaisant aux conditions (3.145) 
et (3.145"). La première condition est vérifiée si le signal ne contient 
pas de composante constante, la seconde si les signaux sont réels. 
Dans ce cas la statistique (3.146) coïncide avec la statistique (3.9) 
utilisée pour la synthèse de l’algorithme asymptotiquement optimal 
de détection d’un signal déterministe noyé dans un bruit à valeurs 
indépendantes, car 

; n 
Yn (Us co; ni nr 2 SiÀ (ui) = 
n 


= Sif (tt) = Yn (Zis see Zn). (3.153) 


L'équivalence asymptotique des statistiques (3.146) et (3.147) 
entraine celle des statistiques 


n 


Yn(Tir ces = S' sf (x), (3.154) 
i—=1 


Zn (R:, ..) R, = > S'sA, (+). (3.154) 
i=1 


Il ne reste plus qu'à utiliser la convergence en moyenne quadrati- 
que (voir (3.144)) pour nr —+- co 


An(u)—A(u)=f1F;"(u)] (3.155) 


pour établir l'équivalence asymptotique de la statistique 
Un (Lis + + :» Tn) déterminée par Pen et de la statistique de rang 


2 (Rise. Rr)= 77 2 sfr (— ns ) |. (3.156) 


L'équivalence asymptotique des statistiques y, et z, a lieu 
lorsque les zx; ont même répartition de densité w, (zx; 0) donnée, 
c'est-à-dire en l’absence de signal. On peut cependant montrer que 
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cette assertion est également vraie dans le cas où l’échantillon appar- 
tient à la répartition 


Un (X; ys/V n), 0 << y < ©, pour nr —+ 00. 


En vertu du théorème de la limite centrale, la statistique de 
rang (3.156) est asymptotiquement normale tant pour l'hypothèse H 
que pour l'alternative X et tous les résultats formulés dans 3.1 pour 
la statistique (3.13) restent vrais pour (3.156). 

L'algorithme de rang asymptotiquement optimal de détection 
d’un signal déterministe se formule maintenant comme suit: le 
signal est présent si 


7x 2 > sf[r (Te )]>c, (3.157) 


il n’y a pas de signal si c’est l’inégalité inverse qui est vérifiée. 
Il est facile de voir que l’on peut obtenir (3.157) à partir de (3.13) 


en remplaçant zx; par F-! (+) (voir (3.141)). Mais à la différence 


de (3.13), l’algorithme de détection basé sur (3.157) est un algorithme 
de rang, c’est-à-dire qu'il est zon paramétrique, conservant le niveau 
de fausses alarmes pour un échantillon de taille quelconque, pour 
un seuil donné et une distribution du bruit variable. 
L’algorithme de rang asymptotiquement optimal de détection 
d’un signal quasi déterministe du type général (3.47) (de composante 
constante nulle) peut être obtenu à partir de (3.52) en remplaçant 
la statistique y, (x) par la statistique z, (R) (voir (3.154) et (3.154”)). 


3.2.3. Algorithmes de rang asymptotiquement optimaux de dé- 
tection d'un signal déterministe noyé dans un bruit additif. En vertu 
de (3.19), dans le cas d’un bruit additif, la caractéristique du con- 
vertisseur non linéaire dans (3.156) doit être de la forme 


AÇu)=f{F;"(u)]=w, [Fi (u)l/w, (F7 (u)]. (3.158) 


Nous allons donner l'expression de f{F;! (u)] pour plusieurs 
distributions du bruit. Dans le cas d’un bruit normal, f (x) — x/0*° 
(voir (3.21)) et donc 


fLF = + Fu), (3.159) 


où F5! (u) est la fonction inverse de la fonction de répartition de la 
loi normale (intégrale de Laplace). 
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Pour un bruit laplacien on a f (x) — v à sgn x (voir (3.23) 
et (3.24)) et donc 


1 | -WZix 
(= je V= dx = 

pif Va)=u (3.160) 
où le signe moins correspond à x << 0 et le signe plus à x > 0. 
A partir de (3.160) on trouve ensuite 


FU 
at TE KL 4 + (2u—1), 0 Lu < 1; 
V 2/02z=In{1+(2u —1)], Ocu<i, zx <Ü; 
V'2oër = —In{1—(2u—1)}, L<u<i, 7250, 


d'où 
sgn x — sgn (24 — Î). (3.161) 
Ainsi, pour un bruit laplacien 
: EI 
FF (= V/ 2 sen (2u —1). (3.162) 


Considérons un bruit réparti suivant une loi logistique *) (de 
variance 0°) de densité de probabilité 


x x 
wi (z; 0) — TE e V5 J{+e SV3 }. (3.163) 


11 est facile de voir que cette distribution est symétrique par 


rapport à l’origine. On a 


x 
—wi(x, 0) _ x e oV3 1 , 
MZ 0) op 3 -T x PNA 
e 4 —+ 1 
L HAS 
Fi(z)=(i+e VS) t=u, (3.164) 
d'où ; 
TD dt (3.164) 
67/3 


*) La variance de la loi logistique e-*/ (1 +- e-*) * est égale à 


—” 
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En vertu de (3.158), (3.164) à (3.164) pour un bruit logistique on a 


L — (Qu —1) 1 
FLFS' (u)1 = Qu 1) 2. (3.165) 
On peut maintenant, en utilisant (3.157), formuler les algorithmes 
de rang asymptotiquement optimaux de détection d’un signal déter- 
ministe noyé dans les bruits additifs répartis comme nous l'avons 
vu ci-dessus. 
Dans le cas d’un bruit additif normal on prend la décision que 
le signal est présent si (voir (3.159)) 


7t 


1 " R; . 
77 à sF 1 Fri = C: (3.166) 


ce qui coïncide avec l'algorithme de rang de Van der Waerden 
(voir (2.134)). 

Dans le cas d’un bruit additif laplacien on prend la décision que 
le signal est présent si (voir (3.162)) 


— S's;sgn (R:— ET ] >C, (3.167) 
r 


ce qui coïncide avec l'algorithme des médianes (voir (2.132)). 
Dans le cas d’un bruit additif logistique on prend la décision 
que le signal est présent si (voir (3.165)) 


+ SR >EC, (3.168) 


ce qui correspond à l'algorithme de rang de Wilcoxon (voir (2.133)). 

Nous avons ainsi établi le fait que les algorithmes de rang envisa- 
gés dans le chapitre 2 de détection d’un signal déterministe sont 
asymptotiquement optimaux pour certains types de bruits additifs 
stationnaires indépendants. 


3.2.4. Algorithme asymptotiquement optimal signe-rang de dé- 
tection d’un signal déterministe. Lorsque l’on utilise les algorithmes 
signe-rang, on peut ne pas exiger que la composante constante soit 
absente dans le signal déterministe (voir 2.4.5). 

Si la fonction de probabilité du bruit w, (x; 0) est symétrique 
par rapport à l’origine et satisfait à la condition (3.5), pour l'échan- 
tillon indépendant zx,, ..., x, appartenant à la distribution du 
bruit, on établit comme précédemment l’équivalence asymptotique 
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pour rz —+ oo de la statistique (3.154) et de la statistique signe-rang 


Zn (AR, ..., An) = 


R? 

== 5 su (Tr +5) ] 6416 
où R* = (R\, , R;j) est le vecteur des rangs positifs (voir 2.2.3). 
La faible restriction (3.145) sur le signal reste, tandis que la restric- 
tion (3.145) sur l'absence de la composante constante est remplacée 
par la condition que les valeurs | s; | sont limitées pour à quelconque. 
L'équivalence asymptotique a également lieu dans le cas où l’échan- 
tillon appartient à la distribution du mélange d'un signal Às (1) 
et d'un bruit pour À Vnr = Y. 

La règle asymptotiquement optimale de détection d'un signal 
déterministe, non paramétrique dans la classe des bruits à distri- 
bution symétrique, peut se formuler comme suit: on prend la déci- 
sion que le signal est présent si 


mor (+h)]>c euro 


et la décision qu’il n’y a pas de signal si c’est l’inégalité inverse qui 
est vérifiée. 

Considérons les algorithmes asymptotiquement optimaux de 
détection d’un signal constant s (t) = a > 0 noyé dans un bruit 
additif de distribution symétrique. Dans ce cas on prend la décision 
que le signal est présent si 


Fr > Free [r (+3)]>c 6470 


En utilisant (3.162), (3.165) et (3.169) on peut maintenant pro- 
poser les algorithmes signe-rang asymptotiquement optimaux de 
détection d’un signal constant noyé dans des bruits additifs de cer- 
tains types. 

Pour un bruit additif normal on prend la décision que le signal 
est présent si (voir (3.159)) 


= > S u (xi) FT (= 


ce qui coïncide avec l'algorithme signe-rang de Van der Waerden 
(2.103). Dans le cas d’un bruit additif laplacien, on décide que le 


ss +3) >0, (3.171) 


i= 1 
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signal est présent si (voir (3.162)) 


l n R+ ; a _. 
7 Dutusn-r=-7 Zu(z) 20, (3.171') 
1=]| 


ES | 


ce qui coïncide avec l'algorithme unilatéral de signe (2.47). Pour 
un bruit additif logistique, on prend la décision que le signal est 
présent si (voir (3.165)) 


= d'u(z) R>C, (3.171) 


ce qui coïncide avec l'algorithme signe-rang de Wilcoxon (2.91). 

On a établi ainsi que les algorithmes signe-rang envisagés ci- 
dessus utilisés pour la détection d’un signal constant sont asyÿympto- 
tiquement optimaux pour certains types de bruits additifs: l’algo- 
rithme de Van der Waerden pour un bruit normal, l’algorithme de 
signe pour un bruit de Laplace, algorithme de Wilcoxon pour un 
bruit logistique. 


i= 1 


3.2.5. Stabilité de l'algorithme de rang asymptotiquement opti- 
mal de détection d’un signal déterministe. Comme nous l'avons 
montré ci-dessus, lors de la détection d’un signal déterministe noyé 
dans un bruit à valeurs indépendantes on peut utiliser les algorith- 
mes asymptotiquement optimaux de rang qui sont asymptotique- 
ment équivalents aux algorithmes simples. On peut caractériser la 
stabilité de ces algorithmes par le coefficient d'efficacité asymptoti- 
que relative. Si pour la détection d’un signal déterministe noyé 
dans un bruit de distribution u, (x; 0) on utilise un algorithme asym- 
ptotiquement optimal de rang, « accordé » sur un bruit de distri- 
bution w, (x; 0), en reprenant les raisonnements de 3.1.5 on arrive. 
à la conclusion que le coefficient d'efficacité relative de l’algorithme 
de rang, pour ce bruit « étranger », par rapport à l’algorithme asymp- 
totiquement optimal est égal à (voir (3.42)) 


1 
= ([ SF 16 du)" x 
0 


x ( f2(z)w, (zx; 0) dx Ï g?(z)u;1(z; 0) az |”, (3.172) 


où Fi! (x) et Gj! (x) sont les fonctions inverses des fonctions de re- 
partition F, (x) et G (x) dont les dérivées sont w, (x; 0) et u, (x; 0) 
respectivement. 
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La formule (3.172) est symétrique par rapport aux distributions 
w, (x; Ojet u, (x; 0). Ceci signifie que l'efficacité relative d’un al- 
gorithme « accordé » sur le bruit w, (x; O0) mais utilisé avec le bruit 
u, (r; 0) est la même que celle d’un autre algorithme, « accordé » 
sur le bruit u, (x; 0) mais utilisé avec le bruit w, (x; 0). Ainsi, par 
exemple, l'efficacité relative d’un algorithme signe-rang « accordé » 
sur un bruit additif normal (voir (3.169)) mais utilisé avec un bruit 
laplacien est justement la même que celle d’un algorithme « accordé » 
sur un bruit additif de Laplace (voir (3.170)) lorsqu'on l'utilise dans 
un bruit normal. En vertu de (3.172), le coefficient d'efficacité asym- 
ptotique relative est dans ces cas 


P=+ ([ F1 (u) sgn (2u — 1) du ) = 
0 
u —— { e-seo dz)" =+, (3.173) 
) 


3.2.6. Comparaison des efficacités des algorithmes de rang et 
simples asymptotiquement optimaux de détection des signaux. En 
comparant (3.173) avec (3.45) et (3.46) on arrive à des conclusions 
intéressantes. Les efficacités relatives des algorithmes asymptoti- 
quement optimaux de rang et simple « accordés » sur un bruit lapla- 
cien mais utilisés avec un bruit normal sont les mêmes et égales 
à 2/1. L'efficacité relative de l'algorithme asymptotiquement opti- 
mal de rang, « accordé » sur un bruit normal, lorsqu'on l'utilise dans 
un bruit laplacien est 8/x & 2,5 fois plus grande que celle de l’algo- 
rithme simple « accordé » sur un bruit normal, mais employé pour 
la détection dans un bruit laplacien. 

L'expression générale du coefficient d'efficacité relative d’un 
algorithme de rang asymptotiquement optimal par rapport à un 
algorithme simple, les deux étant « accordés » sur un bruit de dis- 
tribution w, (x; 0) et utilisés en présence d'un bruit « étranger » de 
distribution uw, (z; 0), se présente comme suit : 


I 00 
(TLFIt GI elGit (2) d:)" À f(x) ui (x; O)dr 
ET —" — ()17) 


[s, + 


(| Heu: 0) dz)* \ f*(z)wi (x; 0) dr 


Ce coefficient est égal au rapport des coefficients calculés à l’aide 
des formules (3.43) et (3.172). 

Il est montré dans [26] que le cas p > 1 a lieu lorsque la distri- 
bution w, (x; 0) est celle d’un bruit additif normal. Autrement dit, 
la stabilité des algorithmes de rang « accordés » sur un bruit normal 
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est toujours supérieure à celle des algorithmes simples « accordés » 
également sur un bruit normal. Selon [26] cette propriété des algo- 
rithmes de rang apparaît pour une distribution quelconque du bruit 
additif. 


3.3. ALGORITHMES ASYMPTOTIQUEMENT OPTIMAUX 
DE DÉTECTION DES SIGNAUX D'APRÈS 
DES OBSERVATIONS INDÉPENDANTES QUANTIFIÉES 


3.3.1. Quantification en amplitude. Vu le large emploi des cal- 
culateurs numériques dans des systèmes informationnels modernes, 
il paraît indispensable d'étendre la théorie asymptotique exposée 
au $ 3.2 des algorithmes asymptotiquement optimaux de détection 
des signaux au Cas où les processus observés sont préalablement 
quantifiés en amplitude. 

La quantification en amplitude consiste en ce qui suit. Le domai- 
ne des valeurs possibles de l’échantillon (sous-ensemble ou ensemble 
de toutes les valeurs réelles) est divisé en m + 1 > 2 intervalles 
disjoints Ey — (2, Zn+1), À — 0, . .., m. Ainsi, la quantification 
est donnée par un vecteur à m dimensions z — (2,, . . ., 2m), Zo — 
— —O0, Zm +1 — OO. 

A la sortie du dispositif de quantification, au lieu de l’échantil- 
lon observé x = (x,, ..., zm) on obtient un échantillon de même 
taille 7 de grandeurs quantifiées 4‘! , . .., k'°*, dont chaque élé- 
ment ne peut prendre qu’une des valeurs de l’ensemble fini de m + 1 
valeurs, avec des probabilités 


“R+1 
Pa = | wi(z; O)dz; k=1,..., m, (3.175) 
Th 
en l'absence de signal et 
Sh+1 
Pr(nsi)= | wir; Ans) dx; k=1,..., m, i=1,...,n, (3.176) 
k 
en présence du signal. 


3.3.2. Développement asymptotique du logarithme du rapport de 
vraisemblance pour des échantillons quantifiés. Comme dans le 
cas des échantillons non quantifiés, la synthèse des algorithmes 
asymptotiquement optimaux pour les processus quantifiés se base 
sur le développement asymptotique du logarithme du rapport de 
vraisemblance des échantillons quantifiés. 

Indiquons les conditions indispensables pour que le développe- 
ment asymptotique mentionné existe. Soit w, (x; O0) la densité de 
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probabilité du bruit satisfaisant aux conditions (3.3) à (3.6), de plus 
la fonction p4 (d) de (3.176) est dérivable par rapport à 6. 

La quantité d’information de Fisher pour les échantillons quan- 
tifiés est donnée par 


m 9 Pr | 

L= S [in pa (8) lo | / pa. (3.177) 
Supposons que I, << oc et que la puissance du signal s (t) soit limi- 
tée, c’est-à-dire que soit vérifiée la condition (3.9’). Alors pour 
An Vn = Yy,où0 < y << oetn —+ 00, on a le développement asymp- 
totique suivant du logarithme du rapport de vraisemblance Z, pour 
des échantillons indépendants quantifies : 
In Z (x) = 2 2 x (ri) In PV D 


LL m 


_ L Da S dr) LWit+a(x ys/Vn), (8.178) 
i=1 k-! 
où 
] 
dk 70 In PR (È) [e--0» (3.179) 
1; tiC En, 3 80 
Ja «= | 0, Ti CE», L ) 
L= S pdt, W.= lim Ds (3.180') 
k—! RTE ji] 


(voir (3.9). Dans le développement (3.178), le terme résiduel «, 
tend en probabilité vers zéro pour #7 — oo, tant pour l’hypothèse 
H que pour l’alternative X. Cette assertion se démontre à l’aide des 
résultats mentionnés dans 3.1.2 (voir (17). 

Remarquons que l'expression (3.178) peut être obtenue à partir 
de (3.8) en remplaçant I}, par I, et la fonction f (x;) par la fonction 


m m 
è G) 
fa) = Ÿ du (e)= D 35 in pa (0)|, 2x (x). (8.181) 
k=1 k=1 
Il est facile de voir que mu {fs (x) | H} — 0, M, {f: (x) | H} — 
— [,. En vertu du théorème de la limite centrale, le terme linéaire 
du développement (3.178) 


n 


Ur, (x)= = S' sif2 (x) (3.182) 


if 
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est réparti suivant une loi de probabilité asymptotiquement normale 
de paramètres (0, I,W.) pour l'hypothèse AH, et de paramètres 
(yLW,., ZW.) pour l'alternative X. Lorsque les ensembles E, se 
rétrécissent en des points, à Savoir 2, — Zn +1; A2k = Z2n+1 — Zn, alors 


Pr (9) — uw (2x; Ÿ) Azs, fe (x) f(x), Îs — ], (3.183) 


et la statistique (3.182) devient la statistique (3.9) pour un échantil- 
lon non quantifié. 
Remarquons que pour m fini quelconque, en vertu de (3.177) 
et de (3.5) on a 
Is < I}, (3.184) 


c'est-à-dire que la quantité d’information de Fisher pour un échan- 
tillon quantifié n'est pas supérieure à cette quantité pour un échan- 
tillon non quantifié. 


3.3.3. Algorithme asymptotiquement optimal de détection d'un 
signal déterministe. La règle asymptotiquement optimale de détec- 
tion, d’après un échantillon quantifié d'observations, d’un signal 
déterministe noyé dans des bruits indépendants est 

O(x)=1 (le signal est présent) si y, (x) > C, 
| : (3.185) 
®i(x)=0 (le signal est absent) si y; (x) <<C, ° 
où yz, (x) est donné par (3.182). 

Connaissant les valeurs des paramètres de la distribution limite 

pour l'hypothèse Æ et vu que la statistique y, (x) est asymptotique- 


ment normale, on trouve la valeur du seuil C correspondant à une 
probabilité donnée & de fausse alarme 


C=z, VIWs (3.186) 


où x, est l’a-quantile de la loi normale. En se servant des valeurs 
des paramètres de la distribution limite pour l’alternative, on établit 
une relation entre la constante y et les probabilités données de fausse 
alarme « et de perte du signal f: 


zp=(C—V%lW,)/V LW:; (3.187) 


en réunissant (3.186) et (3.187) et en substituant la valeur de C don- 
née par (3.186) on obtient 


(Za — Zi-5)3 = y: W,. (3.188) 


Lors de la quantification des observations, tout comme lors du 
rangement, une partie de l'information utile est en général perdue. 
Cependant, à la différence des algorithmes asymptotiquement opti- 
maux de rang, qui sont aussi efficaces que les algorithmes simples, 
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les algorithmes asymptotiquement optimaux adaptés à des observa- 
tions quantifiées accusent une réduction de l'efficacité. Il est donc 
intéressant de comparer l'efficacité de ces algorithmes selon qu'ils 
sont appelés à traiter des observations quantifiées ou non. Pour me- 
sure de l'efficacité, on prend le coefficient d'efficacité asymptotique 
relative. 

En utilisant (1.72) et les valeurs des paramètres des distributions 
limites des statistiques à comparer, on trouve que le coefficient d’ef- 
ficacité asymptotique relative de l'algorithme asymptotiquement 
optimal (3.185) prévu pour les observations quantifiées, par rapport 
à l'algorithme (3.13”) utilisé pour les observations non quantifiées, 
soit 

p = I,/1;, (3.189) 


est égal au rapport des quantités d’information de Fisher pour les 
échantillons quantifié et non quantifié (voir (3.5) et (3.177)). Com- 
pte tenu de (3.183), il est facile de voir que ce coefficient est non 
supérieur à l'unité. Ïl montre de combien de fois, s’il y a quantifi- 
cation des observations, il faut augmenter la taille de l'échantillon 
pour que l'algorithme de détection du signal d’après l'échantillon 
quantifié conserve les mêmes valeurs des probabilités d'erreurs œ 
et B que l'algorithme traitant des échantillons non quantifiés. 

Si la quantification est telle que I, — Ï;, alors d’après (3.189) 
p — 1, c'est-à-dire que les algorithmes asymptotiquement optimaux 
de détection d'après des échantillons quantifiés et non quantifiés 
sont équivalents. 


3.3.4. Détection d'un signal constant. En vertu de (3.182) et (3.184), 
l'algorithme asymptotiquement optimal de détection d’un signal 
déterministe d’après des échantillons quantifiés consiste à faire une 
somme des valeurs s; du signal, pondérées par les fonctions f, (x;) 
(voir (3.181)). Pour un signal constant s({) = a, la statistique 
(3.182) s'écrit comme suit: 


m US 


: = lee d, Ÿ 5). (3.190 
Yz,, (x) VA 2 fa (#9 VA à k 2, Xn (xi) ( ) 


i= | 


n 
La somme D y, (x;) est égale au nombre #4, d'éléments dans 
1 


1— 
l'échantillon (x;,, . .., z,) se trouvant sur l'intervalle E,. Donc, 
omettant le facteur constant a, on peut écrire l'algorithme asympto- 
tiquement optimal de détection d’un signal constant comme suit: 
le signal est présent si 


m mn 
= Sam >C, J'm=n, (3.191) 
k=— k— 
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et il n’y a pas de signal si c'est l’inégalité inverse qui est vérifiée. 
La valeur du seuil C et la constante y sont données par (3.186) et 
(3.187) où il y a lieu de poser W, = 1. 

L'algorithme (3.191) est bien plus simple que l’algorithme géné- 
ral utilisant la statistique (3.182), car il est basé sur le vecteur 
(A1, - : .; Am) de dimension constante m, restant inchangée lorsqu'on 
augmente le nombre d’observations et ne dépendant que du nombre 
de niveaux de quantification. 

Lorsqu'il s’agit de la détection d’un signal constant noyé dans 
un bruit de valeur moyenne nulle et dont la distribution est symé- 
trique, le maximum de la quantité d’information I, d’après Fisher 
est atteint lors de la quantification en deux niveaux E, — (—co, 0), 
E, = (0, co). Dans ce cas en vertu de (3.175) et (3.176) on a 


0 
p=p=i2, p(8)= | wi(x—0) d7, 


pa(0)= | wi (z— 8) dx 
0 


et en vertu de (3.179) on a 
di= —2w,(0), d = 2w, (0), 1, = 4w* (0). (3.192) 


En substituant (3.192) dans (3.191), on trouve l'algorithme asymp- 
totiquement optimal de détection d'un signal noyé dans un bruit 
de distribution symétrique si l’on procède à une quantification en 
deux niveaux: le signal est présent si 


1 ue _9 
Ven (R2—n:) 1. (n—2n;) ZC, (3.193) 
où l’on reconnaît l’algorithme unilatéral de signe 
{ . j 
= à u(x) >C. (3.193) 
Remarquons que pour un bruit additif laplacien (voir (3.23)) 
w? (0)—— et par conséquent 


202 
Ty = 2/0° = 1, (3.194) 


i.e. on a la quantite d’information de Fisher pour des observations 
non quantifiées (voir (3.26)). Ceci signifie que dans ce cas les algorith- 
mes asymptotiquement optimaux de détection d’après des échantil- 
lons quantifiés et non quantifiés sont équivalents. Le résultat obte- 


i= {| 
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nu n'est pas inattendu car l'algorithme asymptotiquement optimal 
de détection d’un signal constant noyé dans un bruit laplacien ad- 
ditif est justement un algorithme de signe (voir 3.1.3). 


3.3.5. Algorithme optimal simplifié de détection d'un signal dé- 
terministe d’après des observations quantifiées. Comme nous l'avons 
montré dans le paragraphe précédent, l'algorithme asymptotique- 
ment optimal de détection d’un signal d’après des observations quan- 
tifiées se simplifie beaucoup dans le cas où le signal est une grandeur 
constante sur l’intervalle d'observation. [1 semble intéressant d’uti- 
liser l’algorithme (3.191) pour un signal variable. Il est également 
intéressant d'estimer de combien baisse l'efficacité de cet algorithme 
simplifié par rapport à l'algorithme asymptotiquement optimal. La 
statistique (3.191) est asymptotiquement normale tant pour l’hypo- 
thèse Æ que pour l'alternative Æ, les paramètres de la distribution 
limite pour l’hypothèse H (absence de signal) étant (0, I,). Le cal- 
cul des paramètres de la distribution limite pour l’alternative K 
(présence d’un signal déterministe variable) est plus compliqué. On 
peut montrer (voir [2]) que la valeur moyenne est égale à 


4 m 
m: = à, dan | K} — yl,a,, (3.195) 
k=1 
où 
a,= lim J > Sh (3.196) 
Ti — © ni 


et la variance est la même que pour l'hypothèse Y. 

Connaissant les valeurs des paramètres des distributions limites 
des statistiques, il est aisé de trouver, conformément à la formule 
générale (1.72), le coefficient d'efficacité asymptotique relative de 
l'algorithme optimal simplifié (3.191) de détection d’un signal dé- 
terministe par rapport à l'algorithme optimal (3.185): 


p = a JV W.. (3.197) 


3.3.6. Quantification optimale. Lorsque l’on utilise des algori- 
thmes de détection d’après des échantillons quantifiés, le problème 
est de trouver le quantificateur optimal, c’est-à-dire la partition 
Zopt telle que, pour un nombre donné m de niveaux, on ait 

I, t = SUP LS (3.198) 
Z 


op 


Comme montré dans {2], la partition optimale z,,+ satisfait au 
système d’équations 
(ds — dus) [da + du —2f(2)]=0; k=1,...,m, (3.199) 
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où f (x) est donné par (3.4). Si f (x) est une fonction monotone, le 
système (3.199) se simplifie et devient 


dr + dpuy —2f (28) =0, k=1, oo...) M. (3.199) 


La résolution des systèmes (3.199), (3.199”) n’est en général pos- 
sible que par des méthodes numériques. On voit l'intérêt d’un déve- 
loppement, voisin de l’optimal, mais moins compliqué. Nous dirons 
que la suite des partitions z* est asymptotiquement optimale, si 


lim (1; —l2e)/(1;— Le) = 1- (3.200) 


mc 


Pour certaines conditions (admissibles du point de vue pratique) 
z* satisfait au système d'équations 


th œ 
| r (x) dr = —— | r(z) dx; k=1,..., m, (3.201) 


où 
ra) (Sin ui (x: 6) lo) /u (z: 0)]"”. (3.201) 


Le coefficient d'efficacité asymptotique pour l'algorithme uti- 
lisant la partition z* par rapport à l'algorithme asymptotiquement 
optimal est donné par l'expression suivante: 


PL | | r (x) dx)" +o(1im?). (3.202) 


Dans le cas de la distribution de Rayleigh généralisée par exemple, 
dont la loi de probabilité est 


| x — 0 1 
W (x; d)=<+ exp (— 59: }(212), z>0, 8>0, 
la partition asymptotiquement optimale z* est 


ñ=0(6in |; k=1,..., m, Zz=0, 


et 


p=1 Er + 0 (1/m°?). (3.203) 


12—0165 
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3.4. STRUCTURE DES ALGORITHMES ASYMPTOTIQUEMENT 
OPTIMAUX DE DÉTECTION DES SIGNAUX D'APRÈS DES 
OBSERVATIONS CORRÉLÉES 


3.4.1. Modèle de bruits corrélés. Tout comme dans le cas des 
observations indépendantes, la synthèse des algorithmes asymptoti- 
quement optimaux de détection des signaux déterministes et quasi 
déterministes noyés dans des bruits corrélés est basée sur l’étude du 
développement asymptotique du logarithme du rapport de vraisem- 
blance. Dans le cas des observations indépendantes, le logarithme 
du rapport de vraisemblance est égal à la somme des logarithmes du 
rapport de vraisemblance pour chaque observation. Pour certaines 
limitations sur la distribution unidimensionnelle du signal noyé 
dans un bruit, ceci a permis de trouver une règle assez simple de 
détection du signal. On peut également obtenir des résultats analo- 
gues dans le cas des observations corrélées à condition d'adopter 
un modèle de bruit pour lequel le rapport de vraisemblance se facto- 
rise, et donc le logarithme de vraisemblance est une somme de varia- 
bles aléatoires. Tel est par exemple un processus markovien multi- 
connexe (voir {1.20]). De plus, un processus markovien multiconnexe 
est un modèle suffisamment général de bruits réels bien qu’il ne puis- 
se prétendre à l’universalité. 


3.4.2. Développement asymptotique du logarithme du rapport 


de vraisemblance. Soit x°}, — (x_x ,...,x,) un échantillon de la 
réalisation zx (t) du processus observé, x; — xz(t;), t3— tt; — 7—, 
i — — k, ., n. Le problème est de ‘vérifier l'hypothèse H selon 


laquelle l’ échantillon appartient à la distribution w (x",; O0) contre 
l'alternative X qu'il appartient à la distribution w (x",, À,s":), où 
Sn = (S_ps + - +, Sn), Si = S (t:) sont les valeurs de la fonction du 
signal à des instants donnés ; À, l’amplitude du signal. Soit x!, une 
suite markovienne homogène * fois connexe, stationnaire pour l’hy- 
pothèse Æ. Soit de plus 


An = YVn, 0<y< 0. 


Compte tenu de la factorisation de la densité multidimension- 
nelle de la suite markovienne k fois connexe (voir [1.20]) le logarith- 
me du rapport de vraisemblance pour l'échantillon observé peut 
s’écrire comme suit : 


w (xp: YSTr/Vn) _. w(x=}; ys=}/Vn) 
Dry) w(x=}; 0) 


In 


w(z1xiz} ; vs! _,/Vn) 


+ © In = 
ee w (x, [Xi : 0) 


1=0 


(3.204) 


L 
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où w (x=; Ÿ) est la densité de probabilité k-dimensionnelle de la 
suite markovienne x”, et w (x | y; ®) la densité de probabilité de 
la transition de y à x (y étant un vecteur à À dimensions). Ces den- 
sités dépendent du paramètre (du signal) à À + 1 dimensions 


d = ys/Vn. 


Introduisons le vecteur z — (y, x) à À + 1 dimensions; impo- 
sons aux densités de probabilité mentionnées les conditions suivan- 
tes : 

a) w (z; Ÿ) est continue en Ÿ au point 8 — 0 uniformément sur 
VzE 2, 

b) la densité de probabilité de transition admet le développe- 
ment 


w(z|y; #)=w(z|y; 0) [1 + £ (z) 8 — | 6 |* Ô (z; D)], (3.205) 


© 


miti(z)|y, 4}= | f(z)w(x|y; 0) dx =0, (3.206) 
m {f(z)f' (2) |A} =K, det K< o, (3.207) 
ma {6° (2: 9) | H}< D, |01<R, (3.208) 


où D et R sont des constantes positives et f” est le vecteur transposé. 
A partir de (3.206) on obtient également 


ms { (2) | H} = mm {f()ly, H}}—0. (3.209) 


Pour que le développement (3.205) existe, il suffit qu’au point 
Ÿ — 0 existent en moyenne quadratique les dérivées secondes mixtes 
de la densité de probabilité de transition, c'est-à-dire 


d® 
me {ae v (1: 0)1H}<c, |81<R (3.210) 


(voir également [35]). 
Pour les conditions mentionnées, le logarithme du rapport de 
vraisemblance admet le développement asymptotique suivant: 


Inl(x",; ys!x/Vn) == >) f’ (xi_») sy — 
i=0 


+ triQK]+ a, (xx; vs! x/Vr), (3.211) 
12* 
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où Q et K sont les matrices définies positives égales à 


Q=(Qi;), Qi = Qi-;, É, j=0, Te 
n T 
Q(o)= lim D spsp4r = lim Le r | s(t)s(t+Ix) dt, (3.212) 
UE Te S p=0 û 


K=(X;;), Ki5=miffif;| À}, i, j=0,...,k, (3.213) 


et les Mrs du vecteur f (xi_,) sont *) 


f(x) = sine (fi vsi-a/Vn)li j=0,....k, 
(3.214) 


le terme résiduel &«, —0 en probabilité lorsque nr —o tant pour 
l'hypothèse Æ7 que pour l'alternative XÆ si 

a) des limites finies Q;; existent ; 

b) m, {f” (x) e | H} Lo, e étant le vecteur unité à k +1 
dimensions ; 


c) tr (QK] > 0. 
Si le signal est périodique, les conditions a) et c) sont toujours 


vérifiées et la condition b) peut être affaiblie, à savoir, on peut exi- 
ger que 
ms {le' f(x) | H}<o, Ee >0. 


Pour prouver la légitimité du développement asymptotique 
(3.211) on procède comme suit: pour l'hypothèse FH, on montre la 
convergence vers zéro du terme résiduel dans le développement du 
logarithme du rapport de vraisemblance en une série de Taylor, en 
gardant les termes linéaire et quadratique du développement. Puis 
on montre que la distribution du terme quadratique devient pour 
l'hypothèse H une fonction delta au voisinage du point (y°/2) tr [QK]. 
On utilise ensuite la théorie de Le Cam (voir 3.1.2) pour démontrer 
l’équivalence asymptotique des suites de distributions lorsque les 
hypothèses F et ÆÀ « se rapprochent ». 

Le premier terme du développement asymptotique du logarithme 
du rapport de vraisemblance 


V, (xx) = PL D L'(xi-a) Six = 
i=0 


== > > fy(xi-n) S(ti-nes) (8.215) 
i=0 j=0 


*) Notons qu'en vertu de (3.214) on prend les dérivées par rapport à la va- 
leur du signal à l'instant d'observation et par rapport aux valeurs du signal à 
k instants précédents. 
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est une variable aléatoire asymptotiquement normale, de paramètres 
(0, tr (QK]) pour l'hypothèse FH et de paramètres (y tr [QK], tr [QK]) 
pour l'alternative X. 

En toute rigueur il faudrait avoir dans (3.215) le facteur de nor- 


malisation 1/V r + 1. Il est évident cependant que dans un dévelop- 


pement asymptotique on peut se satisfaire de 1/Vn. 

Pour démontrer la normalisation de la somme de variables aléa- 
toires corrélées dans le second membre de (3.215) pour l'hypothèse H 
lorsque 7 —+ oo on utilise le théorème de la limite centrale pour une 
somme de variables aléatoires « fortement mélangées », ayant en 
vue qu’une suite markovienne # fois connexe est douée de cette pro- 
priété (voir [4]). La valeur moyenne de la statistique (3.215) est 
nulle pour l'hypothèse F# en vertu de (3.209). La variance de cette 
statistique pour l'hypothèse Æ peut être facilement calculée si l’on 
met à profit le fait que les composantes des vecteurs aléatoires 


f (x_,) ne sont pas corrélées deux à deux, à savoir 
me {fr (ia) fe (x) | 4} = Kid (3.216) 


où 6;, est le symbole de Kronecker. En utilisant la théorie de Le 
Cam on peut montrer que la statistique (3.215) de paramètres 
(y tr [QK], tr (QK]) est asymptotiquement normale pour l’hypothè- 
se X. 


3.4.3. Algorithmes asymptotiquement optimaux de détection d’un 
signal déterministe noyé dans un bruit markovien X fois connexe. 
En vertu de (3.211) et (3.215) l'algorithme asymptotiquement opti- 
mal de détection d'un signal déterministe noyé dans un bruit marko- 
vien k fois connexe (pas obligatoirement additif) est 


D(x°»)=1 (le signal est présent) si Y, (x!) >C, 


: | : (3.217) 
D(x_x)—=0 (le signal est absent) si Y, (xx) <<C, 

m {O(x'x)|H}= a, (3.218) 

m{® (k'1)| K}=1—8, (3.219) 


et la caractéristique de fonctionnement de l'algorithme asymptoti- 
quement optimal (3.217) pour nr — tend vers la caractéristique 
de fonctionnement de l’algorithme optimal (suivant le critère de 
Neyman-Pearson). 

La statistique Ÿ, (x"',) étant asymptotiquement normale, on 
obtient à partir de (3.218) une formule donnant la valeur du seuil 
d’après une probabilité donnée de fausse alarme «, soit: 


C = z Vtr IQKI, (3.220) 


où z, est l” a-quantile de la loi normale. 
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A partir de (3.219) on obtient également 


Li-p= Te —Y V tr{QK|], (3.221) 
d’où *) 
V=(Ze—2-8)/V tr IQK]. (3.222) 


Remarquons que l’algorithme asymptotiquement optimal (3.13) 
de détection d’un signal déterministe noyé dans un bruit à valeurs 


Indépendantes s’obtient à partir de (3.217) comme un cas particu- 
lier lorsque 


i— 1 i 
Wtilxilr, Si-r) = wi (ti; si), k = 0. 
Dans ce cas le dispositif de détection n’a pas besoin d’élément 
inertiel (« mémoire ») tenant compte des observations et des valeurs 


antécédentes du signal. Il se compose d'un convertisseur non linéaire 
non inertiel des données d'entrée, de caractéristique 


f(x)= 2 Ina (35 8) lo, 


LL) 


et d’un corrélateur donnant la corrélation mutuelle © s;f (x;) 
ii 


du signal et des données observées transformées. 


3.4.4. Réalisation pratique de l'algorithme asymptotiquement 
optimal de détection d'un signal déterministe. L'algorithme de dé- 
tection (3.217) utilisant la statistique (3.215) préscrit l'exécution 
des opérations suivantes. Tout d’abord, on accumule dans la mémoire 
du calculateur Æ valeurs échantillonnées du processus x:', observées 
aux instants t_2, - . ., 1, et # + 1 valeurs du signal déterministe 
s’, aux mêmes instants et à l'instant t,. Après une observation x 
à l'instant t{, on calcule la somme corrélationnelle de À + 1 compo- 
santes des vecteurs s°, et f (x°.). Les composantes de ce dernier sont 
calculées d’après les densités de probabilité conditionnelles données 
des échantillons pour des valeurs x°',, s°, retenues dans la mémoire. 

La somme corrélationnelle calculée est mémorisée de même que 
les vecteurs x! +1; S° +13 à l’instant £, on effectue l'observation sui- 
vante z,. Puis on calcule une nouvelle somme corrélationnelle 
£" (xLx#1)S=8+1 et ainsi de suite x + 1 fois pour l’échantillon ob- 
SETVÉ Zos + + + Zn. Enfin on totalise r + 1 valeurs des sommes cor- 
rélationnelles et on compare le résultat avec un seuil. Le schéma fonc- 
tionnel du calculateur de la statistique (3.215) est donné sur la 
figure 3.5. A partir de la réalisation d’entrée zx (t), à l’aide d’une ligne 
a retard à * + 1 positions, on forme successivement les vecteurs 


Xi _k = [z(tix), ..., æ(ts)l, à — 0, ..., n. Pour chaque à, la 


*) D'une manière analogue à (3.18), l’expression (3.222) détermine pour des 
valeurs données a, B tr [QKT la valeur de sæuil de l’amplitude du signal. 
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quantité gardée dans la position ÿ de la mémoire (ligne à retard) 
attaque le j-ième calculateur spécial de la composante f}; (x), 
j = 0, Te conformément à la formule (3.214). A l’aide d’un 
oscillateur local du signal déterministe s ({), pour chaque i donné, 
il se forme dans la ligne à retard les vecteurs 


Si _e—[s(é nes SUb)l L=0,.5.4n: 


Les données fournies par les calculateurs spéciaux et celles déli- 
vrées par le bloc des valeurs du signal attaquent le corrélateur dont 


Fig. 3.5. Schéma fonctionnel du calculateur de la statistique Y,, (x".). 


la sortie est reliée au sommateur-enregistreur des données. Le détec- 
teur se simplifie dans le cas où l’on peut remplacer le traitement pa- 
rallèle par un traitement séquentiel. Dans ce cas pour chaque i 
donné le calculateur spécial f; effectue une dérivation, au total 4 + 1 
fois, en faisant avancer d’un pas le paramètre de dérivation. Le cor- 
rélateur sera dans ce cas également à un canal. 


3.4.5. Détection d'un signal déterministe noyé dans un bruit mar- 
kovien. Considérons le cas particulier de l’algorithme (3.217) lorsque 
le bruit est un processus markovien (4 — 1) dont la densité de pro- 
babilité de transition est w (x; | z;_1; 0). La statistique asymptoti- 
quement normale (3.215) est dans ce cas 


. R= > [ si > 


5 Si-1» St) ls, ="; =0 + 


+ sis . law (riz Ses SD, ,=4=0 |]. (8.223) 
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La valeur moyenne et la variance de la statistique (3.223) pour 
l'hypothèse H sont *) 


m{Y, (x: DHj=L > | sim. (= In w (- )}+ 


i—0 


+siim (+ Inw(-)}]= —0, (3.224) 


M,{Y, (x! 1)14}= + D 2 Ls SI (—— In uw (- = 


i=( 


— Inuw(-)}+ 


2 
LL. 


— 


Le 


+ sisi = In w(- )=— In w (- )}+ 


0 
+ SSI; {= In sd ° 


+ Sis1-am{ nu (. ) = In w (- )}]. 3.225) 
Mais compte tenu de (3.216), pour l'hypothèse H on a 
ms {5 Inw(z|z-ss Sits &)=— mu (ala St-1» s)}= ôu. (3.226) 


A partir de (3.225) et (3.226) on trouve 


MT (x 1)14}= + > [ stres {| . Inw(-)|}+ 
i=0 
+ 25;Si-1M: {= — In w (: = In w (: )} + 
+ st ms r [Lmw()}}] 6.27 
et en utilisant (3.212), (3.213) on obtient **) 


Ma{Y a (x 1)| 4} — QoKo0 + 2Q1 (T) Koi + QoK 11, (3.228) 


*) Le point entre parenthèses signifie la répétition de l'argument de (3.223) 
et aussi que les dérivées sont prises pour les valeurs nulles de l'argument. 
*+) Il est évident que le second membre de (3.228) est la trace de la matrice 
QK (voir (3.211)). 
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où 
T 
Q= lim | s2(1) dt, (3.229) 
(L 
T 
Q(r)= lim + [ s(t)s(t+7)dt, (3.230) 
PARC 


Ki=K=m; {+ Inuw(zilzis; Si-s, Si) X 
X Inw(z;|z;-15 Sy sj} i, j 0; 1. (3.231) 
Lors de la détection d’un signal constant s (t) = a (Q, = Q, = 
= d°) noyé dans un bruit markovien normal additif pour lequel 
| 9 ' 
In W(xi|Zi-1; di, ai) = 367) [(ti— ai) —r(zis —ai)]-+ 
+In{[2xo2(1—7r2)]"/*, aa; ;—a, (3.232) 
on obtient : 
fo(xi-1)=zi/lo2(1—7r2)1, fi(xi-1)= —rzis/lo2(1—7r2)], (3.233) 
=[0({—72)] 2, Kou=r{lo(f—r?)}2, KAii=rKo (3.234) 
et par conséquent 
MB, (1) AH} (2) Ja — r}2. (3.235) 


On prend la décision que le signal est présent, avec une probabi- 
lité donnée de fausse alarme «, si (voir (3.220)) 


n 
a 


"© S (n—ras) Dre —— 3.236 
o?(1—r?) Va 2 TT; 1)ZTe G(1—r) ( ) 
ou 

LS (mr) > RE. (3.237) 

i—=0 d 

L'inégalité (3.237) peut s’écrire comme suit : 

n— 1 

dents etes Gas 


i=0 


La règle de détection (3.238) coïncide avec la règle de détection 
d’un signal noyé dans un bruit normal markovien, optimale d'après 
le critère de Neyman-Pearson pour #7 quelconque. 
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3.4.6. Algorithme asymptotiquement optimal de détection d’un 
signal quasi déterministe noyé dans un bruit markovien multiplement 
connexe. Considérons un signal quasi déterministe du type général 
(1.9). Le développement asymptotique du rapport de vraisemblance 
pour un vecteur Ÿ donné est (voir Fer 


L(x°s 


— 0 pa, n) — exp C7 6 S f’ (Kia) pin, :— À 0'B0}, 
i=0 


(3.239) 


où P;-2.1 est une matrice de dimension m X (k + 1), à éléments 
a (és), L = 1, sm imik, .., dt: pa une D de 
dimension m X m à éléments tr D = 1, 5 Apq 
est une matrice de dimension (k + 1) X Ta + À), dont les éléments 
&pa Sont 


T 
cm = lim | @,(E+ ir) qa(t + j9) dt, 
ln J=0; LR bats M; (3.240) 


et K est une matrice de dimension (4 + 1) X (4 — 1) définie par 
(3.213). La statistique vectorielle (à m dimensions) 


’ Li : 
== V > Î (Xi -n) Pi -h, i (3.241) 


i=3() 


de composantes 
k 


Vin (x! ») — == 7 y > Î; (xi_ h) Œ1 (li - h45) (3.242) 


Hg 30 


est asymptotiquement normale tant pour l'hypothèse Æ (il n’y a 
pas de signal) que pour l'alternative X (le signal est présent), les 
matrices de corrélation des distributions normales limites coïncident 
pour l’hypothèse et pour l'alternative et sont égales à la matrice B, 
le vecteur des moyennes est nul pour l’hypothèse Æ et égal à y BÔ pour 
l'alternative X. 

Si l’on connaît la distribution mutuelle a priori w,, (8) des para- 
mètres Ÿ du signal, le rapport de vraisemblance généralisé (moyenne 
sur Ÿ du rapport de vraisemblance conditionnel) est égal à 


A(Y)= | wn (0) exp (v0'Y,—+6'B6) dû. (3.243) 
| 2 
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En utilisant (3.243), on obtient l'algorithme asymptotiquement 
optimal de détection du signal quasi déterministe s — 0’ suivant: 


O[Y,(X=x)l=1 (le signal est présent) si A(Y,)>C, 


. e n « e (3.244) 
DIY,(x-2)] =0 (il n'y a pas de signal) si A(Y,)<C, 
avec 
(2m) V det B°! | | D(y) exp{ ——+ (y — yBÔ)' B-t(y—yBô)| X 


6 Ÿm 
6) dy dô Le VU goux 
X dÙ -- 2 

où 6, Y,, sont des espaces euclidiens à m dimensions. 

Le système d’équations (3.244"), pour «& et B donnés, détermine le 
seuil € et la constante Ÿ. | 

Pour de nombreux signaux du type (1.9) qu'on rencontre dans la 
pratique, la règle (3.244) de choix d’une décision est uniformément 
asymptotiquement optimale, ce qui signifie que les caractéristiques 
de travail ne dépendent par de y. Avec l’augmentation de la taille 
de l'échantillon ces caractéristiques se rapprochent des caractéristi- 
ques optimales (suivant le critère de Neyman-Pearson). 


3.4.7. Réalisation de l'algorithme asymptotiquement optimal de 
détection d’un signal quasi déterministe. En vertu de (3.243) et 
(3.244), cet algorithme est doué de la propriété d’invariance partiel- 
le. Seuls le calculateur du vecteur de la statistique suffisante Y, 
et la valeur du seuil dépendent du type de bruit et de son mode d'in- 
teraction avec le signal. L'autre bloc du détecteur, moyennant le 
rapport de vraisemblance, dépend seulement de la distribution des 
paramètres du signal (voir fig. 3.2). 

Le schéma fonctionnel du calculateur des composantes du vec- 
teur de la statistique suffisante est donné sur la figure 3.6. A partir 
de la réalisation d’entrée x (t), la ligne de retard forme le vecteur 
X;_n = [x (tisx), . . ., æ (4;)]. Les valeurs des composantes de ce 
vecteur sont utilisées dans Æ + 1 calculateurs spéciaux donnant les 
quantités f;(xi-x), j = 0, ..., k, conformément à la formule 
(3.214). Cette partie générale du calculateur ne diffère pas de celle 
qui est donnée à gauche du pointillé sur la figure 3.5. Les m oscilla- 
teurs locaux de fonctions de base y, (£), L == 1, . . ., m, servent à 
former, à l’aide de m lignes de retard, les vecteurs @, de composantes 
Dr (li-x), --., Qi (ti). Les données du j-ième calculateur spécial de 
f; attaquent m corrélateurs identiques recevant également, en pro- 
venance des lignes de retard, les composantes des vecteurs de base. 
Les sorties de À + 1 corrélateurs, correspondant chacun à une fonc- 
tion de base donnée ®,, sont sommées. Les calculs sont répétés pour 
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tous les à — 0, . .., n, puis les résultats sont totalisés dans l'enre- 
gistreur et sont mémorisés et, finalement, on obtient la composante 
Y'in (X= à). 

Ainsi, le détecteur d’un signal quasi déterministe dépendant de 
m paramètres aléatoires, noyé dans un bruit markovien # fois con- 
nexe, se compose de m calculateurs des composantes non linéaires du 


Calculateur spécial 


Fig. 3.6. Schéma fonctionnel du calculateur des composantes du vecteur de la 
statistique suffisante. 


vecteur YŸ,, des corrélateurs du type discret, des sommateurs. La 
« mémoire » (lignes de retard) gardant # + { valeurs des fonctions 
du signal et À valeurs échantillonnées antérieures, est l’élément es- 
sentiel du système. 


3.4.8. Stabilité de l'algorithme asymptotiquement optimal de 
détection d'un signal quasi déterministe noyé dans un bruit markovien 
multiplement connexe. Supposons que l'algorithme (3.244), asympto- 
tiquement optimal pour un bruit distribué suivant w (x°, | 0), soit 
utilisé dans des conditions où le bruit possède la distribution 
u (x, | O0). Pour caractériser la stabilité de l'algorithme (3.244) 
utilisé avec ce bruit « étranger », il y a lieu de trouver le coefficient 
d'efficacité asymptotique relative de cet algorithme par rapport à 
l'algorithme asymptotiquement optimal pour le bruit distribué 
suivant u (x°, |[0). Ce problème est bien plus compliqué que le pro- 
blème analogue étudié dans 3.1.5, où les bruits étaient à valeurs indé- 
pendantes. La difficulté réside en ce que maintenant il faut de nou- 
veau étudier le comportement asymptotique de la statistique (3.241) 
pour un bruit « étranger », car à cause de la corrélation des composan- 
tes de (3.241), il n’est pas évident que la somme en est asymptoti- 
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quement normale. De plus, les paramètres de la distribution limite 
changent (vecteur des moyennes, matrice de corrélation), alors qu’on 
en à besoin pour résoudre le problème. Nous ne donnerons ici que la 
marche à suivre et les résultats finaux. 

Tout d’abord il faut démontrer que la statistique (3.241) est 
asymptotiquement normale dans un bruit « étranger » pour l’hypo- 
thèse H,, on trouve l'expression suivante pour les éléments de la 
matrice de corrélation R‘* de la distribution limite: 

: LA 
Bi = lim 8 = lim {tr[ KE 5 ©] + 
n 20 URL. j= 


n 


+2 Y [Koss ir |} (3.245) 


m= i=m 
où 
KE = ms {fe (xi ue) Poe (Xi Km) | Hu}, (3.245') 
Din = qu(ti_x) Py(ti-km); (3.245") 
qu (in) = [qe (tin), +, qu(ti)]. (3.245") 


Le vecteur des moyennes est nul si la condition 


LL 
Him à Qu (ti) = 0, l=1,::.,m, 
i1= 
est vérifiée. 

Puis on montre que la statistique (3.241) est asymptotiquement 
normale dans un bruit « étranger » pour l’alternative X,. La matrice 
de corrélation de la distribution limite est la même que pour l’hy- 
pothèse F7,,, tandis que le vecteur des moyennes est égal à yB(u:%) @, 
où B(u.%) est une matrice dont les éléments sont 


n 
sp nl = lim {tr [ l'un ue > Dr | “a 
Éd : im! 


+2 S te[ Ki + S œ"|}, (3.246) 
m=i im 


Kn 7) = ms {fu (xi-n) Pro (MER) | Hu}. (3.246") 


Le coefticient cherché d'efficacité asymptotique relative est 
p = (Yo/v0)° (voir (3.244")), où y, et y5 sont les racines minimales 
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des équations 


(2x) 7"? V'det Bi \ D) exp{ ——+(5—7B0) B-! (y — vB0)} x 
è 


dr 


X Um (Ÿ) dÔ dy — 1 —B,, 
(2x) V det B" det V det B!""” w) | O (y) exp {—+ (y vB""0) K 
6 


Ym 
x Be (3 78% 0) hu, (8) dd dy = 1 — Bo. 


3.4.9. Algorithme asympotiquement optimal de détection d'un 
signal modulé de phase aléatoire. Considérons le signal à bande étroi- 
te (3.58). En utilisant (3.60), (3.60”) dans le cas où l’enveloppe a (t) 
et la phase w ({) du signal varient lentement par rapport à cos wwf, 
on trouve 

; 


T 
Lim 7 | (0) qu (+9) dt lim Le T | æ(Dme (+2 dt 


T 


+ Jata(t+r)=+ Br, (8247) 
0 


M 
=- lim 


T 


+ | q (t)m(t+r)dt—0. (3.247!) 


0 


lim — 


T—00 


T 
r | (à LOUP MR 
T'; Too 


En vertu de (3.247) et (3.247'), dans le cas envisagé la matrice B 
de dimension 2 X 2 est diagonale, les éléments diagonaux étant 
k k 


b=-— D S KiÿBal(—j)t]. (3.248) 


1=0 2=0 


Ecrivons maintenant le rapport de vraisemblance généralisé sous 
la condition que la phase aléatoire p, est répartie uniformément 
sur l'intervalle (0, 2x): 


nm=[ | A 0% —V1— 5) x 


2 
X exp (70: Y in cn VO2 Yon — + b) dù, dd, — 
2x 


— e-v'd/2 _. | exp (YŸ in COS P+ YŸ on Sin p) de = 
0 


=I(y|Yne-"®?. (3.249) 
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En vertu de (3.249), le rapport de vraisemblance généralisé est 
une fonction monotone de la statistique 


RACE DAC AT TONI: 
i=0 


+ [LS fin qi], (8.250) 
i=0 
où 
qu(ti-s) = [a (tin) cos [ooti-r + (éi-n)], 
...,a(tijcos{oti+w(ti)]], (3.251) 
qe (ti-x)= [a (fix) sin [octi-r + Ÿ(tix)], 
...,) a(ti)sin[@oti+#(éi)ll. (3.252) 
La statistique (3.250) peut s’écrire comme suit : 
k 


[Ya (x) 2= — {5 S fi(xi-x) a (ti) cos [ooti-s+ b(#i-)1}" + 


i=0 jJ=0 


n  k 
++{ D (ri) a (ti-j) sin [oo hi). (3.253) 


i= 0 y=0 


L’algorithme asymptotiquement optimal de détection d’un si- 
gnal quasi déterministe du type (3.58) de phase aléatoire uniformé- 
ment répartie consiste à comparer la statistique (3.253) à un seuil 
déterminé par une probabilité donnée de fausse alarme «& pour y 
quelconque (c’est-à-dire que cet algorithme est uniformément asymp- 
totiquement optimal). Comme pour l'hypothèse H, les quantités 
Yin et Yon Sont des variables aléatoires normales indépendantes de 
valeurs moyennes nulles et de variance b, le seuil mentionné est 
donné par 


Co = ba (2), (3.254) 


où 44 (2) est l’a-quantile de la loi du #° à deux degrés de liberté, 
c'est-à-dire de la loi exponentielle. 

Pour l’hypothèse K, Y., et Y., sont des variables aléatoires nor- 
males indépendantes de valeurs moyennes yÿb et de variances 6. 
La probabilité de perte du signal B est alors donnée par l'égalité 


bxi_p (2, ô) — Co» (3.255) 


où 5-8 (2, ô) est l’1-B-quantile de la loi du x? à deux degrés de liber- 
té de paramètre d'écart ô = V“b. 
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Le dispositif de détection non cohérente d’un signal modulé à 
bande étroite de phase aléatoire noyé dans un bruit markovien mul- 
tiplement connexe, contient deux canaux en quadrature où sont 
calculées les statistiques asymptotiquement suffisantes, correspon- 
dant l’une à la composante en phase du signal et l’autre à celle en 
quadrature. Puis comme toujours on a des détecteurs quadratiques, 
des sommateurs et un dispositif à seuil. 


3.4.10. Distribution normale des paramètres d'un signal. Sup- 
posons que la distribution a priori w,, (8) des paramètres d’un signal 
quasi déterministe du type (1.9) soit normale de vecteur des moyen- 
nes Ÿ, et de matrice de corrélation D. A partir de (1.33) on voit que 
dans ce cas le rapport de vraisemblance généralisé (3.243) dépend 
d’une manière monotone de la statistique 


YO) = YaBIY, —(Y,—yB60)" (B+v2B'D-1B)-1(Y,—yB6), (3.256) 


et par conséquent la règle de choix d’une décision peut se formuler 

comme suit : le signal est présent si W (Y,) > C”, le seuil C” et la 

constante y sont déterminés pour & et B donnés, à partir du système 
d'équations 

a = P{F(Y,) zC'|H}, (3.257) 

1—Bp—= P{F(Y,) > CI KA}. (3.258) 


Supposons que les fonctions d’autocorrélation et de corrélation 
mutuelle temporelles de la base {q (t)} sont telles que 


1 
1 
lim + ppt) pntt+T) dt= Bolt), (3.259) 
00 0 
i.e. B, (t) ne dépendent pas de p, et pou pq 
T 


lim + r | Pp (#) Pa (+) dt = Ba (7) = Ban (— 9 = — Bgn (%), (3.260) 


i.e. B,p (t) est une fonction impaire de t. La matrice B est alors 
diagonale 


B=bl,b>0, (3.264) 
k k 
= À 2 AuyB:l(— j)t]. (3.262) 


Comme on sait, on peut toujours décorréler un ensemble de varia- 
bles aléatoires © de vecteur des moyennes Ô, et de matrice de corré- 
lation D, en effectuant sur Ô une transformation linéaire 


n=0"F, (3.263) 
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où F est une matrice orthogonale de vecteurs lignes F;, i = 1, 
.., m, Satisfaisant à l'équation 


Dp= dy, (qi, p;)— Gi. (3.264) 


L'ensemble des variables aléatoires normales n est indépendant, 
de vecteur des moyennes #5 — F@, et de matrice de corrélation dia- 
gonale à éléments d, > 0, i — 1, ..., m. La transformation ortho- 
gonale (3.263) des paramètres du signal signifie que le signal (1.9) 
est rapporté à une nouvelle base, soit 


s(t)=0"p(t)=nE ‘p(t)=np" ({), (3.265) 
avec 


p" (t) = F'i(t). (3.266) 


Il est facile de montrer que la transformation orthogonale de la 
base ne touche pas les relations (3.259), (3.260) si elle est vraie pour 
la base œ (ft). Ainsi, après transformation orthogonale de la base Ia 
statistique (3.256) devient 


VY,)= YnYn/b—(Y, — ee ) (bI+ va) X 


X (Ya — vb05 )= y? S (Tin +d,00;/v)? d —= 3:33 + Const, (3. 267) 


j=1 
= 2 Fidu (3.268) 


En vertu de (3.267), on a la règle asymptotiquement optimale sui- 
vante : le signal est présent si 


y? à (Lin + d505,/v)2/(d; + vd) >C. (3.269) 
J= 
Le seuil Cet la constante y se trouvent à partir du système d’équations 


P (y? 2 (nt d;0%/v)/(d;+vb)>C|H}=a, (3.270) 


Pi {+2 à Pin+ 08/2 (d+v6)>C|K)=1—8, (3.271) 


où 


Yin = = S s fi (xi +) P; (Li-n+1) 


i=0 [=0 


sont des variables aléatoires normales indépendantes de variances 
b et dont les moyennes sont nulles pour l’hypothèse H et égales à 
vb0*,; pour l’alternative X. 


13—-0165 
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Le calcul des constantes C et y revient à trouver la distribution 
de la somme finie pondérée des carrés de variables aléatoires normales 
indépendantes de moyennes et de variances différentes. Ces calculs 
aboutissent à une loi du y* non centrée tabulée à m degrés de liberté 


dm Dom (dm*3°8)! 
Fig. 3.7. Schéma fonctionnel du dispositif réalisant l’algorithme (3.269). 
si d; = d, c’est-à-dire seulement dans le cas d’une distribution des 


paramètres à symétrie sphérique. Dans ce cas, l'inégalité (3.269) 
peut s’écrire comme suit : 


15 (Yn + d0%/Y>C. (3.272) 


J=1 


Le paramètre d'écart de la statistique (3.272) est 


das > 
6 (= 10 (3.273) 
pour l'hypothèse 7, et 
d+Y"b)" = 
(= jo (8.274) 
pour l'alternative Æ, où 
0% [2 — à . (3.275) 
J—= 


Par conséquent, en vertu de (3.270) à (3.272), la constante y et 
le seuil C pour & et B donnés se trouvent à partir du système d’équa- 
tions 


Xalm, 8o(VI= Xi 8m, Bi (v)l, (3.276) 
x Im, &(v)=C. (3.277) 
Si | 00 | — 0 la statistique (3.272) est répartie suivant une loi 


du +° centrée à m degrés de liberté. Dans ce cas l'algorithme de dé- 
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tection est uniformément asymptotiquement optimal. Le seuil C 
ne dépend pas de y et est égal à x (m). La réalisation pratique de 
l'algorithme (2.369) est assez simple (fig. 3.7). Les sorties des calcu- 
lateurs spéciaux des composantes du vecteur Ÿ, sont sommées avec 
des constantes données, les sommes attaquent les dispositifs d’élé- 
vation au carré et les atténuateurs, les résultats étant aiguillés vers 
le sommateur général. La valeur de la somme est comparée au seuil. 


3.4.11. Détection d'un signal stochastique. Les résultats du para- 
graphe précédent peuvent être utilisés pour établir l'algorithme asymp- 
totiquement optimal de détection d’un signal stochastique, qui re- 
présente un processus aléatoire normal de moyenne nulle et de fonc- 
tion de corrélation B (t, y), noyé dans un bruit markovien multi- 
plement connexe. Dans ce cas il y a lieu d'utiliser le développement 
orthogonal (1.12), la base { (t)} étant déterminée à partir d’une 
équation intégrale homogène linéaire de noyau B ({, y). Le signal 
stochastique a la même structure que le signal quasi déterministe 
que nous avons vu plus haut, à condition de poser m — oo. L'ensem- 
ble des paramètres 03/V Ar, k—1, 2,..., est un ensemble de 
variables aléatoires normales indépendantes de moyennes nulles 
et de variances 1/À;. Dans ce cas on tire de (3.269) la règle asymp- 
totiquement optimale suivante: le signal est présent si 


v*b à Yin/(A+ vb) >C (3.278) 


ou encore 
co R 


_ à [> D fi (xi-r) Pr (ins) |] (A;+v#b)>C. (3.279) 
j=1 i=01=0 
Introduisons la désignation 


R(t, y)= va 2 p, ()pAMu)/(A + vb). (3.280) 


Il est facile de voir que la fonction h (£, y) satisfait à l’équation 
intégrale 
T 


À *G v) Bu, dy + he, v)/(25) = B(e, v), |tI<T, 


2T T° 
[u[<T. (3.281) 


En utilisant (3.280) on peut écrire comme suit l'algorithme 
(3.278) : | | 


n n Rk Rk 
HD D D Din ti-e) f (nn) fa(ri-n) >C. (8.289 
1,=0 i,=0 p=0 qg=0 


13% 
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3.4.12. Algorithmes de rang asymptotiquement optimaux de dé- 
tection des signaux noyés dans des bruits corrélés. Les algorithmes de 
rang non paramétriques de détection des signaux noyés dans des 
bruits indépendants ont été étudiés en détail au chapitre 2. Dans 
2.7 nous avons note que les propriétés non paramétriques de ces al- 
gorithmes cessent d’être non paramétriques si l’on les utilise avec 
des observations corrélées. Cependant les algorithmes de rang ont 
la propriété de maintenir constante la probabilité de fausse alarme 
pour une classe de processus obtenue à partir d’un processus donné, 
à l’aide d’une transformation non linéaire non inertielle monotone, 
même lorsque l’on utilise des observations corrélées. 

L'étude de la distribution des statistiques de rang pour des 
échantillons corrélés de taille finie est, dans le cas général, un problème 
assez ardu (voir (2.43")). Nous allons utiliser l’équivalence asymp- 
totique etudiée dans 3.2.1 des statistiques de rang et non ordonnées 
pour obtenir, à partir de (3.217), un algorithme de rang asymptoti- 
quement optimal de détection d’un signal déterministe noyé dans 
un bruit markovien k fois connexe, comme nous avons déjà déduit, 
pour un échantillon indépendant, l’algorithme (3.157) à partir de 
l’algorithme (3.13). A cet effet il y a lieu de vérifier que les relations 
(3.141) et (3.148) sont vérifiées pour une suite markovienne k fois 
connexe. Ceci est vrai en vertu des résultats suivants obtenus 
dans [36]. 

Considérons un processus aléatoire stationnaire zx ({) satisfaisant 
à la condition de mélange intense, de coefficient de mélange & (4), 
limité par la condition (voir [4], page 388) 


> kVa(k)< co. (3.283) 


Servons-nous de l’échantillon x? = (x;,, ..., xz,), x; = x (t;) 
du processus zx ({) pour former la suite discrète 


z, ()=vrlser( — )|, k=1,...,n, (3.284) 


où F, (x) est la fonction de répartition du processus ; x‘ la statisti- 
que d’ordre k dans l’échantillon x°. Par interpolation linéaire, on 
obtient à partir de (3.284) le processus z, (£), continu sur l'intervalle 
(0, 1). Supposons que pour un & > 0 petit quelconque on ait 
Zn(t)=zn(t), tE(e, 1—e), 
2° (t)=2(t), tE(e, 1 —e). 


Dans [36] on montre qu’il existe un processus aléatoire normal 
z (t) de moyenne nulle et de fonction de corrélation 


B?(t, y) = m{z(t), z (v)}, 
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qui entraîne pour ñ —+ œ la convergence (faible) de z, (£) vers z£ (1), 
la condition (3.283) étant suffisante pour que | B, (t, y) | < oo. Il 
en découle, en vertu de (3.284), la possibilité d’approximation de la 


e e. # AS | Rh Q [] ." 
valeur échantillonnée zx, par 7) ceci d'une manière 


d'autant plus précise que la taille n de l'échantillon est plus grande. 
Une suite markovienne k fois connexe étant un processus à mélange 
intense et donc satisfaisant à la condition (3.283), la dernière afîfir- 
mation est vraie pour cette suite. 

L'équivalence de la statistique simple Ÿ, (x!) (3.215) et de 
la statistique de rang 


Ra) DCR (ee) Ji 
(3.285) 


s'écrit comme suit : 
Ya (a) = 2h (Rx) + 4n (x un), (3.286) 


OÙ Yn (X=x) —+ O en probabilité pour n —- oo. 

En utilisant l’approximation mentionnée ci-dessus, on peut montrer 
que pour une suite markovienne k fois connexe, la fonction f étant 
suffisamment lisse et à condition que 


n 
{ 
—— ; O0 : 
sup| = 2* < (3.287) 
la suite des variables aléatoires 4, dans (3.286) converge en probabi- 
lité vers zéro lorsque la taille de l'échantillon augmente indéfiniment. 

Ainsi, l'égalité (3.286), généralisant (3.148) au cas d’un bruit 
corrélé, permet d'utiliser les résultats de 3.4.3 pour la synthèse d’un 
algorithme de rang asymptotiquement optimal de détection d’un 
signal noyé dans un bruit markovien k fois connexe [1]. Une géné- 
ralisation au cas des signaux quasi déterministes découle directement 
des résultats de 3.4.6. 


3.4.13. Algorithme analogique asymptotiquement optimal de 
discrimination des signaux. Dans ce chapitre nous avons exposé 
d'une manière assez détaillée la théorie des algorithmes asymptoti- 
quement optimaux discrets de détection des signaux d’après des 
observations indépendantes ou des observations markoviennes mul- 
tiplement connexes. Pour conclure, indiquons une des applications 
possibles du principe d’optimum asymptotique dans les problèmes 
de discrimination des signaux « voisins » d’après des observations des 
réalisations continues [7]. 
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Considérons un processus de diffusion z,; = x (t), décrit par l’équa- 
tion différentielle stochastique [19] 


dx, —= $ (Ÿ, | À T1) dt + dW;, 0 << t< L: (3.288) 


où W, est un processus de Wiener; s (-) une fonction donnée; à 
un paramètre du signal. On vérifie l'hypothèse H que ÿ — 8, contre 
l'alternative ÆK que 


Ÿ = 00 + pru, u > 0, (3.289) 


avec pr —> 0 pour 7 —+ co. Il est évident que + est un homologue 
de la suite 1/V nr pour des échantillons discrets. Pour éviter les sin- 
gularités, tout comme dans le cas discret, il faut imposer une con- 
dition sur la vitesse de convergence vers zéro de la grandeur 7 
lorsque la durée de l’observation augmente indéfiniment. On arrive 
ainsi à la condition suivante : pour l'hypothèse F, la limite en pro- 
babilité est 


T 
lim 2 | s2(80, t, tr)dt=1, (3.290) 
T0 0 


52 (00, £, z)=[ 55 (8, 4, 21) lo, |”. (3.290°) 


Désignons la réalisation x, sur l'intervalle O0 < t < T par 27 
et introduisons la statistique 


T T 
y (aT)=@r[ À s(Bo #, zi)d— | s(8, 4, z1)5 (80, £, zu) dt |, 
6 0 


(3.291 


où l'intégrale stochastique dans (3.291) est entendue dans le sens que 
lui attribue Ito. 

On peut montrer que le logarithme du rapport de vraisemblance 
pour le problème de la discrimination des signaux (vérification de 
l'hypothèse Æ contre l’alternative X) admet le développement sui- 
vant (comparer avec (3.211)): 


In 2 (27) =uy (27) +02 pr(u, 27), (3.292) 


7 converge en probabilité vers zéro pour T —- œ tant pour l’hypo- 
thèse que pour l'alternative. La statistique y (xT) est asymptotique- 
ment suffisante et possède une distribution asymptotiquement nor- 
male de paramètres (0, 1) pour l'hypothèse Æ et de paramètres (u, 1) 
pour l'alternative X. 

Pour que ce résultat fondamental ait lieu, il suffit que soit vé- 


rifiée la condition (3.290) et que s (Ÿ, {, z,) soit bornée. 


3.5] PROBLÈMES 199 


En vertu de (3.292), l'algorithme asymptotiquement normal de 
discrimination des signaux est le suivant: pour une probabilité 
donnée « d'erreur de première espèce, on adopte l'alternative XÆ si 


y (27) > To (3.293) 


et l'hypothèse H si l’on a l’inégalité inverse de (3.293). x, est ici 
l'a-quantile de la loi normale. 

A titre d'exemple simple, nous allons envisager le problème de 
la détection d’un signal stochastique ergodique, noyé dans un bruit 
blanc normal additif. Les observations sont décrites par l’équation 
différentielle stochastique suivante : 


dx, = Às (x) dt + dW,, 0 ce l << L': (3.294) 


On vérifie l'hypothèse H : À = 0 (il n’y a pas de signal) contre 
l'alternative ÆX : À > 0 (le signal est présent). Pour T — , l’am- 
plitude À du signal tend vers zéro, en remarquant que *) 


À = ur. (3.295) 
Si le processus z, est ergodique, on a avec une probabilité égale 
à l'unité 
T 


_ À 52 (21) dt W, < 0e, (3.296) 
0 


par conséquent, en vertu de (3.290) on a 


Er = VW. (3.297) 


On déduit de (3.291) et (3.293) la règle asymptotiquement opti- 
male suivante de détection d’un signal : pour une probabilité donnée 
de fausse alarme «& on adopte la décision que le signal est présent si 


T 
1 
—— !lS$ (ze) dx: Te, (3.298) 
VWST 


et la décision qu'il n’y a pas de signal si c’est l'inégalité inverse ue 
(3.298) qui est vérifiée. 


3.5. PROBLÈMES 


3.1. Montrer que la caractéristique d’un convertisseur non linéai- 
re non inertiel placé à l'entrée d’un détecteur asymptotiquement 
optimal d’un signal déterministe noyé dans un bruit additif est 


f (x) = sgn x/ (1 — | zx |) (1) 
*) Avec les désignations de (3.289) on a 0, = 0, 8 = À. 
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pour un bruit de densité de probabilité w, (x) 1 —1|z|,|xz| < 1; 
f@=e—1 (2) 

pour un bruit de densité de probabilité w, (x) = exp (x — e”); 
f () = 2sgnx/ A +]zx|) (3) 
pour un bruit de densité de probabilité w, (x) = 0,5 (1 + | x |) *; 
f(x)=(1—e*)/(1 + ex) (4) 


pour un bruit de distribution logistique (3.163). 

3.2. Montrer que la caractéristique d’un convertisseur non li- 
néaire non inertiel des rangs, à prévoir dans un détecteur asymptoti- 
quement optimal de rang d'un signal déterministe noyé dans un 
bruit additif est 


A (u)= sgn (2u—1)/4—]|2u—1/)""* (5) 
pour un bruit de densité de probabilité w, (7) = 1 —]|x|, |z | < 
< 1; 

1 
A(u)=In———1 (6) 


pour un bruit de densité de probabilité w, (x) = exp (x — e*); 
Au) = 2 (1 — | 2u — 1 |) sgn (2u — 1) (7) 


pour un bruit de densité de probabilité w, (x) = 0,5 (1 + | x |) *. 

3.3. Montrer que l’algorithme, optimal d'après le critère de Ney- 
man-Pearson, de détection d’un signal constant s ({) = «a noyé dans 
un bruit additif de moyenne nulle, de variance 0“ et distribué suivant 
la loi 


Dj (x) — bi exp [— (be | z|)* J, k — 0, (8) 
où 


__kIT(8/R)T (2H), 1 es 
ES 207 (1/4) , be —[T (8/4)T (1/k)1"/ (9) 


ds 
d’après un échantillon indépendant zx, . .., x, se formule comme 
suit : on adopte la décision que le signal est présent si 


D Qal—1a—el)>c, (10) 


où le seuil C est déterminé par une probabilité donnée de fausse 
alarme. 

3.4. Pour les conditions du problème 3.3 montrer que l’algorithme 
asymptotiquement optimal de détection du signal est: on adopte la 
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décision que le signal est présent si 
SI >C 11 
7 Àlal sen x >C. (11) 
i=1 


Examiner les cas particuliers de la distribution de Laplace (4 = 1} 
et de la distribution normale (4 — 2). 

3.9. En utilisant (3.42) montrer que le coefficient d'efficacité 
asymptotique relative de l'algorithme (3.13) par rapport à l’algo- 
rithme linéaire, en présence d’un bruit additif (« étranger ») de den- 
sité de probabilité u, (x; 0) est 


paf J'(z)ui(z; 0) az || [ f?(z)ui(x; 0) dr — 


a f f()ute O)dz)?]7, (12) 


où 6° est la variance du bruit. Vérifier que dans le cas où en qualité 
de convertisseur non linéaire on utilise un limiteur parfait et si la 
distribution du bruit est symétrique, la formule (12) coïncide avec 
(2.70). 

3.6. Pour les conditions du problème 3.5 montrer que le maximum 
de la fonctionnelle p {f (x)} est 


Do | WBeOr [(13) 


4 u1 (75 VU) 


Vérifier que pour un bruit laplacien on a max p = 2. 


Î 
3.7. Montrer que le coefficient d'efficacité asymptotique relative 
de l’algorithme de signe par rapport à l'algorithme linéaire, en pré- 
sence d’un bruit additif de distribution (8), est 
op = X°T (3/k) TS (1/k). (14) 


3.8. En utilisant la formule (14), trouver l'expression suivante 
de max p pour un bruit distribué suivant (8) 
u 


max p = A2] (3/k) T(2—1/k) l2(1/k). (15) 
/ : 
Analyser pour différentes valeurs de k l’expression 
blo=rT(2=2\r (ie t\ lo LT 
max p/p=T (2 -)r(—)= (1 -) (2 T) s/sin —. (16) 
3.9. [17]. Soient xs, . . ., Zen €t Zsys + + + Zen des observations 


indépendantes à nr instants des composantes indépendantes en qua- 
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drature du processus aléatoire à bande étroite 
zx (t) = x (t) cos wot + x, (t) sin wbf, (17) 
qui est soit un bruit à bande étroite, soit un mélange avec le signal 
Às (t), où 
s (t) — a (#) cos Lo ot + Ÿ () — Pol. (18) 
Montrer que les algorithmes asymptotiquement optimaux ana- 
logo-discrets de détection des signaux envisagés sont basés sur les 
statistiques suivantes: 
pour Pr = 0 (détection cohérente) 
1 È ; 
Un (Xe Xs) ya D) &lcos pif (ze) + sin Wu f (zu)], (19) 
i={ 
où dj = a(t;), Y; = Ÿ (t;); f (x) est la caractéristique de l’élément 
non linéaire déterminée par la distribution du bruit (3.4); 


pour une phase aléatoire uniformément répartie (détection non 
cohérente), on a 


n 
1 5 
Yn (Xe x)=—{(5 as [f (zai) cos ÿi+ f (za) sin W] }2+ 
11 
n 
+ (D atf(zu)cosm—f(za)cospel)*}. (20) 
i=1 
3.10. Montrer que dans les conditions du problème 3.9 les algo- 
Tithmes numériques (non paramétriques) asymptotiquement opti- 
maux de détection du signal (18), avec une quantification en deux 
niveaux, sont basés sur les statistiques suivantes: 


pour %o = Ù 


Yn (Xes Xs) = = S\ ai (cos pi sgn ri + sin y: sgn zu); (21) 
1=1 


pour une phase aléatoire uniformément répartie 


Yn (x; Xs) = = {[ > €; (cos Yi S£n Toi + sin Ÿe sgn za) | + 


i=1 


+ [ D ai (cos wi sgn xs; — sin 1 sgn za) |} : (22) 


Er | 


3.11. [17]. Montrer que l'algorithme numérique de phase asymp- 
totiquement optimal de détection du signal à bande étroite (18) 
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noyé dans un bruit à bande étroite lorsque la phase est uniformé- 
ment quantifiée en m niveaux, est basé sur la statistique suivante 
(voir 3.3.2): 

pour Po = 0 


Yn (9) = > ai [ cos ÿi > Xx (Vi) cos — X 


m 


X (2k—1)+sin bi D) Xx (85) sin + (2k—1) |: (23) 
Rk=1 
pour une phase aléatoire uniformément répartie 


Un (0)=< {( 3) ai [cos pe D xx (01) cos À (2k—1)+ 
11 R=1 


+sin Di 4 (8) sin À (2k—1) | )"+ 


Ru i 


+(S Gi [ cos 4 > Xn (Ÿ:) sin —— (2k— 1) + 


imi 
+ sin ÿi S Xx (81) cos À (24 —1) | +. (24) 
R=1 


3.12. Montrer que pour un signal déterministe à bande étroite 
manipulé en phase tel que a; = 1 si cos, = 0, et a; = —1 si 
cos 1, — —1, l'algorithme asymptotiquement optimal de détection 
d’un signal noyé dans un bruit à bande étroite consiste à comparer 
avec un seuil les statistiques suivantes: 

algorithme de phase SM rue 


= S hi cos 0:, (29) 
7 i=1 


+1 pour cos: =0, 
hi = 


— 1 pour cos = —1, 


algorithme de phase avec quantification uniforme de la phase 


Un (9) —= = SD ja (0 Se SnTsinu (26) 


— FR 
+ je Ph+1 — 


Où px —= (2x/m) (k — 1). 
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Montrer que le coefficient d'efficacité asymptotique relative de 
l'algorithme (26) par rapport à l'algorithme (25) est égal à 
1 | ; ; ” 
D > (Sin Qa+1 — Sin pa)?/(Px+1 — pa). (27) 
ke=1 


Vérifier que pour m = 4 
p = 8/n*. 


3.13. Montrer que l'algorithme asymptotiquement optimal 
de détection d'un signal quasi déterministe, dont les paramètres sont 
un ensemble de m variables aléatoires normales indépendantes de 
moyennes nulles, dans un mélange avec un bruit à valeurs indépen- 
dantes préscrit la comparaison au seuil C de la statistique 


(m)= TIRE (28) 


où y, est donnée par (3.47). On suppose que les fonctions de base 
Px ({) du signal, figurant dans l'expression (3.47), sont asymptoti- 
quement orthogonales et normées. Obtenir l’expression du seuil 


C= re (m), (29) 


où x (mn) est l’a-quantile de la loi du 4° centrée. (A remarquer que 
la formule (29) ne contient pas la constante y.) 

3.14. Montrer que pour la détection dans un bruit d'un signal 
quasi déterministe Às ({), où 


s(t)= À Biqu(t) (30) 


1 


bete 


et 01, - .-., Ÿ, sont les paramètres aléatoires de densité de probabi- 
lité mutuelle w,, (8), l'algorithme asymptotiquement optimal, uti- 
lisant des échantillons indépendants quantifiés, préscrit la comparai- 
son à un seuil de la statistique 


D(YA)= | exply0'Y,— EI6"AË)lwm(0)d0, (31) 
où 6 

{ m 

Ya=—= Dpt) D axkx (xi), (32) 
Le is i k=0 

; T 
A (a) 8e lim | (6) qe (#) dt, (83) 

©. 0 


les autres désignations étant données dans 3.3. 


CHAPITRE 4 


ALGORITHMES ADAPTATIFS 


4.1. CLASSIFICATION DES OBSERVATIONS 
DANS LE CAS DES DISTRIBUTIONS NORMALES 


4.1.1. Algorithme de classification avec apprentissage. De nom- 
breux problèmes posés par la radiodétection, les télécommunications 
et la gestion avec indétermination a priori se formulent en termes de 
la théorie de la classification des observations (reconnaissance des 
images). Le problème consiste alors à rapporter l’objet observé à 
une des classes, dont la description probabiliste complète est incon- 
nue. Dans ce cas on ne peut pas utiliser les résultats classiques de la 
théorie des décisions statistiques. Pour trouver la solution on peut 
faire usage des observations étalons (échantillons d'apprentissage). 
A partir des échantillons d'apprentissage on formule les estimations 
des caractéristiques probabilistes inconnues des classes, qui sont en- 
suite utilisées à la place des caractéristiques réelles inconnues de 
l’objet classé, dans l’algorithme optimal de classification construit 
pour une information a priori complète. 

Considérons deux classes S, et S, caractérisées par des distribu- 
tions normales à V dimensions, de même matrice des covariances M 
et de vecteurs des moyennes a, et a, différents. 

Si a, 82, M sont donnés, la règle optimale (de Bayes) de classi- 
fication du vecteur observé x de dimension À prescrit la comparaison 
avec un seuil du logarithme du rapport de vraisemblance, c’est-à- 
dire de la statistique (voir tome Il, page 76) 


v=(x-#te) M (a: — a). (4.1) 


La statistique V est répartie suivant une loi normale de paramè- 
tres (valeur moyenne et variance) 

(— N/2, dN), XES:, (4.2) 

(dY/2, dY), x CS, (4.2) 


dù = (a2—a;) M'i(a — ai). (4.3) 


206 ALGORITHMES ADAPTATIFS [CH. 4 


La grandeur d* peut être appelée carré de la « distance » entre les 
classes (à N dimensions). 

La probabilité totale d’erreur de classification, lorsqu'on utilise 
cette règle, est égale à (voir (1.29)) 


Pe=pilt-F(+S)]+nr( SR), (44 


où Pis Pe Sont les probabilités a propri respectives des classes ; F (x) 
est l'intégrale de Laplace ; C le seuil qui dépend du critère choisi. 

Si les quantités a, a, M sont inconnues, on peut utiliser la pro- 
cédure adaptative de classification du vecteur x. L'apprentissage 
avec maître donne deux échantillons vectoriels classifiés indépen- 
dants: x”, ..., xn de la première distribution et xf’,... 

., Xn, de la seconde. Pour estimations des vecteurs inconnus 
ai et a: ‘et de la matrice des covariances M, on prend les estimations 
du maximum de vraisemblance (voir tome II, 2.7.2), soit: 


ñn 


a S'x, j—1:2, (4.5) 


— { _ . 
M5 | D (xt) a) (xt a) + 


i=1 


+ > (8) (2) |]. (4.6) 


11 


En substituant a,, a,, M dans (4.1) au lieu de a,, a,, M, on obtient 
la statistique de classification suivante: 


La 


Ÿ — Mie) M! (a, — a). (4.7) 


Pour une dimension donnée N et lorsque les tailles 7, et r. des 
échantillons d'apprentissage augmentent indéfiniment, la statisti- 


que ŸV converge en probabilité vers la statistique V. 

Nous allons étudier en détail les propriétés de la statistique de 
classification (4.7) dans le cas où la taille des échantillons d’appren- 
tissage est limitée. 


4.1.2. Cas unidimensionnel. Commençons par le cas le plus sim- 
ple de V = 1, quand les classes S, et S, sont caractérisées par des 
distributions unidimensionnelles de moyennes a, et a, inconnues et 
de variances données, égales à 0“. 

L'apprentissage avec maître a donné deux échantillons d’appren- 
tissage indépendants classifiés: 2°, ..., x de la classe S, et 
x”, . .., zn, de la classe S,. Choisissons Sous estimations des va- 
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leurs moyennes inconnues les estimations du maximum de vraisem- 
blance qu'on trouve à De des échantillons d’apprentissage (4.5) : 


LS 2, Qa—=— > x”. (4.8) 
En utilisant ces estimations au lieu des ue moyennes incon- 


nues, on peut formuler la règle suivante de classification : l'observa- 
tion x appartient à la classe S, si 


Pr (r- Me) (a—a)>0C (4.9) 


et à la classe S, dans le cas contraire. 
Avec le critère du maximum de vraisemblance la formule (4.9} 
peut s’écrire sous forme d’un système d’inégalités : 


zIZ Ahée , d >, (4.10} 


T< He , <a, (4.11) 


i.e. pour le critère envisagé l’algorithme de classification consiste 
à comparer la valeur observée x avec un seuil dépendant des échan- 
tillons d'apprentissage. 


La statistique Ÿ dans (4.9) est le produit des variables aléatoires 
normales corrélées suivantes : 


y = (az — a)/o, (4.12) 
2= (54e) lo. (4.13) 
La moyenne et la variance de la variable aléatoire y sont 
Ma{y} — di — (a: — a&)/0, (4.14) 
M, {y} = 1/n, + 1/n, (4.15) 


tandis que les moyennes et les variances conditionnelles (par rapport 
à l’observation x) de la variable aléatoire z et le coefficient de cor- 
rélation de y et z sont 


ma {sl Sa} == — mi (2181), (4.16) 
Mal 82}= Ma{|S)=1+ + (4.17) 
— Mivs}= my} ms) 
FF. Mt} M Ge 


HAT) GET due 
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Remarquons que pour r, = n, les variables y et z sont indépen- 
dantes. Les moyennes conditionnelles de la statistique V sont 


S 1 1 | a 2 
m{V|S:}=— (——) + nr, (4.19) 
e) Â 1 | — 2 ’ 
mP|S}=r (+) Lt (4.19) 
Si = =NRONnA 
F 7 (a: — a,)° 
mi {V|S2}= —m: (VIS}=<—, (4.20) 


MAP 1S}= MAP IS}=É(14+2)+ (145) M. (4.20 
A partir de (4.19) et (4.19), et en vertu de (4.1), pour W = fona 
mi {P|S3=m{V|S}++ (2), 
i=1Â;2;: 

‘et pour 7, —> 00, N, —> 00 

m{V|S}=mi{V 181). 
Si y = A9 = AN, pour nr quelconque on a 

m{V|Si}=mi{V | Si}, 


2 


M IS}=+(1+5)+(1+2) MIS, 


n 
‘et pour 7 —> oo 
M:{V|S}—M2{V]Si}. 


On tire de (4.19), (4.19”) que les paramètres de la distribution 
assez compliquée de la statistique V sont les moyennes inconnues a: 
‘et as. D'où l'impossibilité de principe d’une analyse probabiliste 
-des caractéristiques de l'algorithme de classification (4.9). On peut 
seulement, après avoir surmonté les difficultés liées à la détermina- 


tion de la fonction de répartition de Ÿ, trouver la probabilité d’er- 
reur 


Per (@i, a) = paP{V >C|Si}+ peP{V <CIS2}, (4.21) 


puis substituer dans (4.21) au lieu de a,, a, leurs estimations &@1, &s 
(4.8) et obtenir ainsi l'estimation P4 de la probabilité d'erreur. 
Lorsque les tailles des échantillons d'apprentissage 7, et n, aug- 
mentent indéfiniment, les estimations a, et convergent en probabi- 
lité vers les valeurs moyennes a, et a, respectivement (car la moyenne 
échantillonnée est une estimation consistante de la moyenne). 
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Comme de plus les limites en probabilité des sommes, des différen- 
ces et des produits de variables aléatoires sont égales aux sommes, 
différences et produits des limites, on trouve à partir de (4.9) que 
lorsque les tailles des échantillons d'apprentissage augmentent indé- 
finiment, la. règle de classification envisagée revient, en probabilité, 
à la règle de Bayes de vérification de l’hypothèse simple concernant 
la valeur moyenne d’une variable aléatoire normale (voir tome Il, 


page 41), Pr convergeant en probabilité vers la valeur de P+, don- 
née par (4.4) lorsque les quantités a; et a, sont connues a priori: 


Pe=pifi-F(5+S)+nr(S-$)], (4.22) 


d' = (a> —a;)?/02. (4.23) 


4.1.3. Cas multidimensionnel (la matrice des covariances est don- 
née). Considérons le cas multidimensionnel, lorsqu'il y a lieu de 
décider à laquelle des deux distributions normales à W dimensions, 
de vecteurs des moyennes inconnus et de matrices de corrélation 
données M, = M, = M, appartient l'échantillon observé x. Suppo- 
sons qu'après apprentissage avec maître on ait obtenu des échantil- 
lons d'apprentissage! classifiés: xf”, ..., x», de la première dis- 
tribution et x’, ..., x, de la seconde. Chaque élément de ces 
échantillons est un vecteur à V dimensions. On prend pour estima- 
tions des vecteurs des moyennes les estimations du maximum de 
vraisemblance (4.5) 


“à és 1 © ec 
a, —=— D xD, a—— > x. (4.24) 


L’algorithme de classification revient à comparer avec un seuil 
la statistique (4.7) 


P—(x- te) Mi (aa). (4.25) 

Introduisons les désignations 
p=(ns—n){(ne+ ns) (ni + ne + änin)I I, (4.26) 
k — (re EE n)/(4nin). (4.267) 


La statistique de classification pour le cas envisagé peut s’écrire 
sous la forme [51] 


Vis +p) CN, 20) —(1—P)X2 CN, 2), (4.27) 


où #%° (W, 210), 4° (N, 210) sont des variables aléatoires indépen- 
dantes réparties suivant la loi du 4° non centrée à N degrés de liberté 
14-0165 
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et de paramètres d'écart 2Af? donnés par la formule *) 


(Gi) — LE LE) —1/2 


—(— 1)" (ntm + 4m) TE dY, (4.28) 
où d? est donné par (4.3) et 
i—1sixES:, (4.29) 
i=2sixeES:. 


Notons que le paramètre d'écart dépend tant des tailles des échan- 
tillons d'apprentissage que de la matrice de correlation M (par la 
« distance » d). 

Pour 7, — co et nr, —+ oo la distribution de Ÿ tend vers une loi 
normale de paramètres (d%/2, dK) si x € S. et de paramètres (—d5/2, 


dh) si x € Si. 


4.1.4. Cas multidimensionnel (la matrice des covariances est in- 
connue). Dans le cas où l’on ne connaît ni les vecteurs des moyennes 
de deux répartitions normales, ni leurs matrices de corrélation 
M, = M, = M, on utilise la statistique de classification (4.25), 
dans laquelle au lieu de M on utilise l’estimation M obtenue d’après 
des échantillons d’apprentissage, c’est-à-dire (voir (4.6)) 


P 


Ÿ — (Rite) M-1 (à — à), (4.30) 


M — ne. (x{ — a,) (x! — a,) + S (x{® — a, (x — a) | 


M2 
i=1! i=! 


et â:1, à, sont données par (4.24). 

Mais des difficultés apparaissent, ce qui est lié à l’impossibilité 
d'utiliser la statistique de classification (4.30) pour 4 et des tailles 
des échantillons d'apprentissage n,, nr, quelconques, car pour 
N > 7m + ns: — 2 la matrice M (voir (4.30”)) se trouve être dégé- 
nérée, et il n’existe donc pas de matrice inverse M-! figurant dans 
l'expression (4.30). Laissant de côté la question des algorithmes op- 
timaux de classification pour des matrices des covariances dégéné- 
rées, conservons l'algorithme de Bayes et étudions la statistique de 
classification (4.30) sous la condition 


N<n=n +n; — 2. (4.31) 


*\ Il est facile de voir que AU) > 0. 
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Comme montré dans [16, 41, 53], lorsque cette condition est véri- 
fiée, la statistique de classification (4.30) peut s’écrire comme suit : 


c n bp) bf 12 — 042 
V; = nn — 2 + k,b( ti — kith =N+2 Trn=NT2 | (4.32) 


Xn—N+1! 


Où ln-v+» X2_n,, Sont des variables aléatoires indépendantes, 
réparties respectivement suivant la loi de Student et la loi du ÿ* 
centrée, et b les éléments d’une matrice aléatoire, répartie sui- 


vant la loi de Wishart non centrée à degrés de liberté et de para- 
mètres d'écart m4, j, k = 1; 2, avec 


Mii = Milo (ri + n2) 4 = Ms (ns + 2 +1) nine, (4.33) 


mii=(—1) mali tnoti)nin] (4.34) 
ki = (=) arr er (4.35) 


d$ étant donné par (4.3) et i — 1 ou i — 2 conformément à (4.29). 

La distribution non centrée de Wishart est si compliquée qu'elle 
pe peut être recommandée pour les applications pratiques (voir {2]). 
Cependant la représentation des statistiques de classification sous 
la forme (4.32) (ainsi que (4.27) lorsque M est donnée) sera utilisée 
ultérieurement pour l’étude de leurs propriétés asymptotiques, lors- 
que la dimension du vecteur des observations x augmente indéfini- 
ment. 


4.1.5. Cas multidimensionnel (les matrices des covariances sont 
différentes et inconnues). Supposons donnés les vecteurs des moyen- 
nes de deux distributions normales à N dimensions des classes S, 
et S+, soit a, = a, — a. Les matrices de corrélation M, et M, de ces 
distributions sont inconnues et M, =£ M.. A l'aide des échantillons 
classifiés d’ apprentissage sise Xi. ‘de la première distribution 
et x°°, ., Xx, de la seconde on peut écrire les estimations du ma- 
ximum de vraisemblance des matrices inconnues M, et M, (voir 
tome II, page 147) 


is (x — a) R— a)’, (4.36) 
i—=1 
M, — + 5. (x$”/— a) (xf”— a)". (4.37) 


Pour classifier l'observation x on peut faire usage de l'algorithme 
optimal de vérification des hypothèses sur la matrice de corrélation 
de la distribution normale, en remplaçant les matrices de corréla- 


14% 
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tion inconnues M,, M, par leurs estimations (4.36) et (4.37). On ob- 
tient alors la règle de classification suivante : l'observation x appar- 
tient à la classe S, si 

(x—a) (M5 —M;')(x—a)>2nC+InetMr 


det M, F8) 


En introduisant le changement de variable 
Y=f(x—a), Y'=(ys..., vx), 
où la matrice f est donnée par la relation 
Mi = MifÀ, 
À étant la matrice diagonale dont les éléments À, ..., À, sont les 


racines de l'équation det [M. — ÀM,] = 0, on peut écrire l’inéga- 
lité (4.38) comme suit : 


N N 
= Y (1-) yi>2lnC+Y In. (4.39) 


is | i= 1 


La distribution de la statistique V dans (4.39) est examinée dans 
[57], où l’on montre, en particulier, que pour n, —+ oo et ñn,; + co 
la règle (4.39) tend en probabilité vers la règle optimale de vérifica- 
tion des hypothèses sur la matrice de corrélation lorsque M, et M, 
sont connues. Si les vecteurs des moyennes de deux distributions nor- 
males sont égaux entre eux et ne sont pas donnés, on utilisera à la 
place de a son estimation obtenue à partir des échantillons d'appren- 
tissage, soit 


a = (nya; + nsdo)/(ns + ne), (4.40) 


où à, et â, sont données par (4.24). 


4.1.6. Classification à alternatives multiples pour des distributions 
quelconques. Voyons comment on peut utiliser l'apprentissage avec 
maître dans le cas où l’on a m classes S,, . .., S,, caractérisées par 
des distributions à V dimensions (non obligatoirement normales) 
wn (x |S1}, ..., wn (x | Su). La forme de chacune des distribu- 
tions ainsi que tous les paramètres (ou une partie) sont donnés. Si 


l’on a obtenu un échantillon classifié, c’est-à-dire m échantillons de 


. . . k l . s 
vecteurs à V dimensions sachant que x\ : éstes Xn, appartient à 


Ja classe S,, k = 1, ..., m, on peut d'apres les échantillons d'ap- 
prentissage former les estimations des paramètres inconnus des 
distributions, et en portant ces estimations dans & y (x | S;), trou- 


ver les estimations des fonctions de distribution w, (x | S;) = 


k Q CE .. Q Le 
= £g(x, x{* ne Xi. Puis, en utilisant comme critère de qualité 
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de la classification le minimum du risque moyen (pour des probabi- 
lités a priori données px, k = 1, ..., m, d'appartenance de l’échan- 
tillon observé à la distribution respective et connaissant les pertes 
I1;;) on arrive à la règle suivante de classification, en remplaçant 
dans la règle de Bayes (voir tome IT, page 70) les fonctions de dis- 
tribution w, (x | S,) par leurs estimations: l'échantillon observé 
x appartient à la classe S, si 


m 


2 (y Tn) par (x1S920,5=1, ...,m. (4.41) 


Supposons, par exemple, que l’on ait m classes caractérisées par 
des distributions normales multidimensionnelles à moyennes incon- 
nues a, et matrices des covariances M, = ... — M,, = M et que 
l'on dispose d’échantillons d'apprentissage de chacune des distri- 


butions. Si l'échantillon x), ue. . appartient à une distribu- 


tion normale de vecteur des moyennes a;, et de matrice des covarian- 
ces M, on peut former les estimations du maximum de vraisemblance 
des paramètres inconnus (voir (4.5) et (4.6)): 


"h 
à 1 
= S' x”, (4.42) 
1-1 
: m Uk À : m 
M= Ÿ, D (x —a,)(x = a)" /Ÿ (n;:—1) (4.43) 
RkR=1i=1 i—{ 


et trouver les estimations des distributions 


w,(x|Sx)= (27) "/? (det M) ‘/* exp | + (x — 
— a) Mt (x—a) |, k=1,...,m. (4.44) 


En posant Il;; = Il, i  j, Il;; — 0 on déduit de (4.41) la règle 
de classification suivante: l'échantillon observé appartient à la 
classe S, si 


= In wn (x 5x) = 
wn (x|S;) 


= (x Mu) Ni G-a)>n ie. j=1,...,m;jsk. (4.45) 


Lorsque tous les n; — co, la distribution simultanée des statisti- 
ques V,; devient normale (voir [2]J). 

Si la forme de la fonction de distribution & ; (x | S;) est inconnue, 
on peut utiliser des échantillons d’apprentissage pour l'estimation 
de ces fonctions par la méthode donnée dans l’annexe 1. 
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4.1.7. Méthode géométrique. Les règles de classification étudiées 
sont basées sur des distributions normales de paramètres inconnus 
et sont optimales même lorsque la distribution n'est pas normale, 
si pour critère de qualité on utilise la « distance » minimale du vec- 
teur des observations au vecteur des échantillons d'apprentissage 


[25]. Nous appellerons distance du vecteur des observations x à 


l'échantillon d’ HS x? se . la grandeur 


15 xx Fe, 
k==1 


c'est-à-dire la somme des carrés des composantes des vecteurs x — 
— xÙ, k—=1,..., 7. 

Pour rendre compacts des échantillons d’apprentissage d’une 
classe donnée, servons-nous d’une transformation linéaire. Il s’agit 
de trouver une transformation linéaire A, conservant le volume 
(c'est-à-dire une transformation dont le jacobien est égal à l'unité) 
pour laquelle la grandeur 


TT 5 5 | AG — x$°) P (4.46) 


R=1 j=1 


est minimale. Dans [25] il est montré que la rotation C,; avec trans- 
formation ultérieure de diagonalisation D est la transformation cher- 
chée. Les colonnes de la matrice C; sont les vecteurs propres de l’es- 
timation M, de la matrice M;,, les éléments de la matrice diagonale 
D étant 


di) = | Îl JUN 6, ,/0$, (4.47) 


« (i) 2° ‘ (i) 
où co: est l'écart quadratique moyen des vecteurs x;’ dans la di- 
rection du /-ième vecteur propre de la matrice C;; N' est la dimen- 
sion des vecteurs, et ôx; = 1 pour À = j; ôxy = O0 pour k & j. 

La règle de classification peut maintenant se formuler comme 
suit : 1) à partir des échantillons d'apprentissage et de l'observation 
x on calcule les grandeurs 

ri 
p=— D'IDiC: (x—xh), i=1,...,m; (4.48) 


hk=1 
2) on trouve la plus petite d'entre elles p; — min p;: 3) on rapporte 


l'observation à la classe j. 
Dans [25] il est montré également que la règle mentionnée est 
équivalente à la règle basée sur la détermination du logarithme du 
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rapport de vraisemblance, calculé en supposant que les distributions 
sont normales, ayant pour vecteurs des moyennes et matrices de cor- 
rélation les paramètres échantillonnés respectifs (les probabilités 
a priori étant égales entre elles: p;, = pet I,;, ÆT, i)j, I;; = 0). 


4.1.8. Algorithme de classification avec auto-apprentissage. Re- 
prenons le problème formulé au début de 4.1.2 en supposant que 
l'échantillon d'apprentissage zx,, ..., zx, ne soit pas classifié. I] 
est légitime de supposer que l'apparition des classes S, et S, dans 
chacune des observations a priori est équiprobable, alors on peut 
considérer chaque élément de l'échantillon d'apprentissage comme 
appartenant à une distribution commune bimodale 


a (e|ass a) = (exp | —(2— a1)%/(289)1+ 
+exp{—(z—@)#/(26)}. (4.49) 


La valeur moyenne de la variable aléatoire suivant la distribu- 
tion (4.49) est 


a = (a + a2)/2; (4.50) 


a, et a. étant inconnues, a est également inconnue. 
La moyenne échantillonnée 


= 5x, (4.51) 
imi 


obtenue à partir de l’échantillon d'apprentissage non classifié, est 
une estimation non biaisée de la valeur moyenne a de la loi (4.49). 

En utilisant l'estimation (4.51) au lieu de la moyenne inconnue 
a et en adoptant le critère du minimum de la probabilité d'erreur 
de classification (maximum de vraisemblance), on peut formuler la 
règle de classification suivante. L’observation x appartient à la 
classe S, si 


z>a, (4.52) 


et à la classe S, dans le cas contraire. 

Lorsque nr augmente indéfiniment, la règle formulée tend asymp- 
totiquement vers la règle de Bayes de vérification de l’hypothèse 
simple sur la valeur moyenne d’une variable aléatoire normale. 

L’algorithme de classification peut être généralisé au cas multi- 
dimensionnel à condition de conserver la symétrie sphérique de la 
densité de probabilité. Le problème est de rapporter l'échantillon 
observé x à l’une des distributions normales à N dimensions de vec- 
teurs des moyennes inconnus a, et a, et de matrices de corrélation 
données M, = M, = ol, où I est la matrice unité. Dans ce cas la 
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distribution multidimensionnelle commune de deux classes est 


EN (xlas a) =" {exp [= —(x—a,) EN | + 


2 (2n0°) 20° 


+exp[ = |}; (4.53) 
wr (xla,b)=—— exp [2 2 |exP [= | X 


x ch[2E |, 


aie, pu (4.54) 
Le vecteur a est le vecteur des valeurs moyennes de la distribu- 
tion (4.53), les éléments de la matrice de corrélation M de cette dis- 


tribution sont 
M, = | Ds | (x: — ai) (zx; —a;) X 
X WN (x|a, b) dz; se dry = b;b, + o?6;;, (4.55) 


où 6;, est le symbole de Kronecker ; a; et b; sont les composantes des 
vecteurs a et b respectivement. 

Si les vecteurs des moyennes a,, a, sont donnés, la partition opti- 
male de Bayes de l’espace échantillonné est effectuée par un hyper- 
plan perpendiculaire à la ligne joignant les points x = a, et x = a 
et qui divise cette ligne en deux (voir tome II, problème 1.6). L'ob- 
servation x se rapporte à l’une ou à l’autre classe, suivant le signe 
de la grandeur b’ (x — a) (comparer avec (4.25)). 

Dans le cas où les vecteurs des moyennes sont inconnus pour les 
deux classes, il y a lieu de remplacer a et b par leurs estimations ob- 
tenues lors de l’apprentissage. Lors de l’auto-apprentissage d’après 
un échantillon non classifié x;, . .., x,, Ces estimations sont obte- 
nues à partir de la moyenne échantillonnée et de la matrice de cor- 
rélation échantillonnée. L’estimation du vecteur des moyennes est 


En 
DE (4.56) 


1=1{ 


et les estimations des composantes du vecteur b se trouvent à partir 
du système d'équations 


Mi — bib, + O20ij, 
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où M; est l'élément de la matrice de corrélation échantillonnée 


M — _ S'(xi—2)(xi—a)’. (4.57) 
i-.| 


Remarquons que le nombre d'équations dans ce système sera en 
général supérieur au nombre des inconnues. Pour résoudre ces équa- 
tions on peut utiliser la méthode des moindres carrés. 

Le calcul de l'estimation du vecteur b peut être simplifié si l’on 
met à profit le fait que ce vecteur est le plus grand des vecteurs pro- 
pres de la matrice de corrélation de la distribution (4.54) ; en outre, 
pour le cas envisagé de la symétrie sphérique, tous les nombres ca- 
ractéristiques de la matrice de corrélation, sauf le plus grand, sont 
égaux entre eux. 

Le problème se trouve simplifié lorsque le vecteur moyenne pour 
l'une des classes, par exemple a;, est donné (comme dans le problème 
de la détection d'un signal noyé dans un bruit, lorsque a, = 0). On 
a alors 

n 
b—a—a TS x a. (4.58} 


îi=! 


4.2. PROPRIÉTÉS ASYMPTOTIQUES DES STATISTIQUES 
DE CLASSIFICATION LORSQUE LE NOMBRE 
D'INDICES INFORMATIONNELS AUGMENTE 


4.2.1. Position du problème. Nous allons reformuler le problème 
de la classification des observations en termes de la théorie de la 
reconnaissance des images. Au lieu des observations on utilise un 
ensemble de grandeurs scalaires qui sont des fonctions ou des fonc- 
tionnelles des grandeurs observées. Cet ensemble est appelé indices 
informationnels de la classe (vecteur des indices). Il est clair que celui 
qui a pour mission d'élaborer un système de reconnaissance essaie 
de résoudre le problème avec le plus petit nombre possible d'indices 
informationnels. À première vue, il peut sembler qu’en augmentant 
la dimension du vecteur des indices, on réduira la probabilité de 
classification erronée. Il est également intéressant de comparer l’in- 
fluence sur la qualité de la classification de l'augmentation de la 
dimension du vecteur des indices et des tailles des échantillons d’ap- 
prentissage. 

Supposons que les classes S, et S, soient caractérisées par des 
distributions normales N-dimensionnelles du vecteur des indices, 
de paramètres (a,, M) et (a., M) respectivement qui sont a priori in- 
connus. On dispose d'échantillons d'apprentissage (classifiés) des 


indices pour chacune des classes, soit (x),  o +. et (x{”? are 
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e x), qui servent à former, à l’aide de (4.5) et (4.6), les estima- 
tions des vecteurs des moyennes et de la matrice des covariances M. A 
partir du vecteur des indices observé x on forme la statistique (4.7). 
Suivant que cette statistique dépasse ou non un seuil donné, on rap- 
porte le vecteur des indices observé à l’une des classes S, ou S.. 

Il est intéressant d'étudier les propriétés asymptotiques de la 
statistique (4.7) ainsi que la probabilité d'erreurs de classification 
lorsque le nombre d'indices N augmente indéfiniment. Certaines 
considérations qualitatives permettent de supposer que les régula- 
rités qui ont lieu pour des lois normales restent dans l'essentiel les 
mêmes pour d’autres distributions lorsque le nombre d'indices aug- 
mente. 


4.2.2. Cas de la symétrie sphérique des classes. Nous allons com- 
mencer par le cas le plus simple, où l’on voit déjà apparaître certai- 
nes des lois générales. Supposons que les indices sont indépendants, 
c’est-à-dire que M = 0*l, où I est la matrice unité, est que les tail- 
les des échantillons d'apprentissage sont égales: n, — nr; = n. Dans 
ce cas la statistique de classification est (4.7) 


La) 


P—(x-#Tu) (a —aà,)o?, (4.59) 


i.e. c'est la somme de W variables aléatoires indépendantes où 
chacune des composantes est le produit de deux variables aléatoires 


normales indépendantes, et la distribution de Ÿ lorsque x € S, coïn- 
<ide avec la distribution de V lorsque x € S.. Les moyennes condi- 


tionnelles et les variances de la statistique Ÿ sont égales à (comparer 
(4.20) et (4.20”)) 


N 
ms (PIS D (au au = —mi{V 15), (4.60) 


i=1 


a, — (11, ss aix), A2 — (G22, ss ., ox), 


Ma{Ÿ1S2}= M2 {V1S1}= À (1 ++ (14e). (4.60°) 


avec 
N 


® | LA 
d$ = > (ais — azi)?. (4.60 ) 
i=1 
Pour n donné et N —+ co, la statistique V dans (4.59) est asympto- 
tiquement normale de paramètres (valeur moyenne et variance) 


(1) di, 2 (140) pan, 


oùi—1,sixES,; i-=2sixE S. 
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Par conséquent, la distribution asymptotique de la statistique 


de classification V, pour une taille finie des échantillons d'apprentis- 
sage et lorsque la dimension du vecteur des indices augmente indé- 
finiment, diffère de la statistique V correspondant au cas où l’on 
dispose d’une information a priori complète sur la distribution des 
classes, par une augmentation de la variance de la quantité (voir 


(4.2), (4.27) 


n 


Il est évident que pour N —+ la « distance » di entre les clas- 
ses augmente également (voir (4.60”)). C’est pourquoi la probabilité 
d'erreur de classification pour V — co tendra vers zéro si le rapport 


du module de la moyenne |; {Ÿ) | à la moyenne quadratique 
[M, {V}]”®? augmente indéfiniment. 
Introduisons la fonction À (W): 


dy=VNA(N). (4.61) 
A partir de (4.60) et (4.60), on obtient alors 


x — d° 
6n/2= 1m {PAM (P} 7 = lar (1 +) + 


_ 4) [40 (1+41)+2{(414 LD) &e 


Pour V — oo on a la relation asymptotique suivante pour la 
probabilité d'erreur de classification (comparer avec (4.4)): 


Per p[i— FE +) | + pr (+). (4.63) 


On voit que la probabilité d’erreur tend vers zéro pour N — oo 
si Ôy — co, c'est-à-dire si 
lim A(N)= lim dy/VN = 00. (4.64) 
N—00 N 00 
Autrement dit, l'accumulation des indices tend à rendre l’er- 
reur de classification aussi petite que l'on veut si le carré de la « di- 
stance » dÿ entre les distributions augmente comme V/?*€, & > 0. 
Dans le cas contraire, lorsque le nombre d'indices informationnels 


augmente indéfiniment, la probabilité d'erreur de classification 
reste positive. 


4.2.3. Classification dans le cas d'indices corrélés (la matrice 
des covariances est donnée). Nous allons maintenant renoncer à l’hy- 
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pothèse de l'indépendance des indices et de l'égalité des tailles des 
échantillons d'apprentissage, en conservant l'hypothèse selon laquel- 
le la matrice des covariances M commune aux deux classes est donnée. 
Dans ce cas la statistique de classification (4.25) peut s’écrire sous 
la forme d’une combinaison linéaire de deux variables aléatoires 
indépendantes suivant chacune une loi du x* non centrée (voir (4.27)). 

Une variable aléatoire, répartie suivant une loi du #° non cen- 
trée à V degrés de liberté et de paramètre d'écart 24 >> 0, peut s’é- 
crire comme la somme (voir également 3.1.11) 


N 
X2(N, 2)= DE, (4.65) 
ii 


où E, sont des variables aléatoires normales indépendantes de varian- 
ces unité, de moyennes nulles pour i > 2 et m: {E,} — V2. 
Donc la variable aléatoire 4° (NW, 2A) est asymptotiquement normale 
(pour NV —+ œ) de paramètres 


mA GE ON, 2} = me (+ Sms ED LH N IN +, 
(4.66) 
MA GE CN, = ME + À M (5) = 
2481 +L2(N—1)—92N +BA. (4.67) 


En vertu de cette dernière affirmation, la statistique de classifica- 
tion (4.27), pour N — et des tailles des échantillons d’apprentis- 
sage fixées d'avance, est asymptotiquement normale de paramètres 


D k i i î i 
ma{Vi} = — [20 N + 2 (AŸ — A2?) + 2p (AŸ + 2L)] = 
p 


= EU W+(—1)di/2, i=1, 2, (4.68) 


2Njlla 


AUS =+ LAN (14 02) 2 8 (1H p)2+ SAS (1 — p)2] = 


» 
es 


= N{(ni+ ne + Anne) (nr +72) + 
+(m—n)/@rn)+ di (14), i=1, 2 (4.69) 


Notons que pour nr, = n, = n les formules (4.68) et (4.69) coïn- 
cident avec (4.60) et (4.60”), c'est-à-dire, lorsque les tailles des échan- 
tillons d'apprentissage sont égales, la dépendance fonctionnelle de 
la distribution asymptotique de la statistique de classification par 
rapport à la taille des échantillons d'apprentissage et à la « distance » 
pour V — œ et des indices corrélés, est la même que pour des indi- 
ces indépendants. 
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En vertu de (4.68), dans le cas envisagé on a un écart égal à 
Na — NN 
2lilio 
sification établie lorsque les paramètres des classes sont entière- 
ment donnés. C'est pourquoi il y a lieu d'utiliser une statistique de 
classification sans biais, à savoir 
De ” ec Ro — = 
Vi = V; D N. (4.10) 
Pour la statistique (4.70), le rapport du module de la moyenne 
à la moyenne quadratique est égal à (comparer avec (4.62)) 


6/2 = | ms {V*} LM {V3} 2 = 


"A(N)TAUN 1 
mnt: (14) + {LG + 2 + Anime) (rs + m2) + 


+ (ne—ru)2]/(2rin2)} 7, i=1; 2, (4.71) 
où À (N) = dx /VN. 

Ainsi dans le cas des indices corrélés (la matrice de corrélation 
étant donnée) pour des tailles finies des échantillons d'apprentissage, 
l'accumulation d’indices amène également à une erreur de classifi- 
cation aussi petite que l’on veut si le carré de la « distance » entre 
les classes augmente comme NŸ?+e, & > 0. Dans le cas contraire, 
la probabilité d'erreur pour N —+ o tend vers une constante posi- 
tive. 


N par rapport à la valeur moyenne de la statistique de clas- 


4.2.4. Classification dans le cas d'indices corrélés (la matrice des 
covariances est inconnue). Considérons enfin le cas général, lorsque 
ni les vecteurs des moyennes, ni les matrices des covariances ne sont 
pas connus. Comme signalé dans 4.1.4, la statistique de classifica- 
tion dans ce cas, la condition (4.31) étant vérifiée, est une transfor- 
mation fonctionnelle du type (4.32) des variables aléatoires indé- 
pendantes réparties suivant les lois de Student, du #* et la loi de 
Wishart non centrée. 

Nous allons étudier les propriétés asymptotiques de la statisti- 
que (4.32) lorsque le nombre NN d'indices informationnels et les tail- 
les des échantillons d'apprentissage augmentent indéfiniment. Sup- 
posons que ces nombres croissent à la même vitesse r’est-à-dire 

lim NiIn=ri< OO, (4.72) 


N 00 


lim N/ns=r: < o0. (4.73) 
N co 
De plus on suppose que la croissance des N et n,, n, est telle que 


la condition (4.31) de non-dégénérescence de la matrice M est tou- 
jours vérifiée. 
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En utilisant le fait que dans ces conditions les statistiques 
Xn=N+1r Én-v+e Di entrant dans la statistique de classification 
(4.32) sont asymptotiquement normales, on peut montrer que cette 
statistique est, elle, asymptotiquement normale de paramètres 

ma (fe te (nn + er) 


litre — fire 


(4.74) 


L 
2 


: ri +r. 3 ; : 
Ma4Ÿ:} = —E——) (ritro+dÿ), i=1: 2 (4.75) 

Il est facile de voir que pour r, = r, — 0, c’est-à-dire lorsque les 
tailles des échantillons d'apprentissage croissent plus rapidement que 
le nombre d'indices informationnels, les expressions (4.74) et (4.75) 
coïncident avec la moyenne et la variance de la statistique de clas- 
sification Ÿ, lorsque les paramètres des classes classifiées sont entiè- 
rement connus (voir (4.2) et (4.2”)). Ceci correspond évidemment à 
la tendance mentionnée de V vers Ÿ lorsque la taille des échantil- 
lons d'apprentissage augmente indéfiniment. 

Tout comme dans le cas précédent, il est désirable d'éliminer 
l'écart ; on y parvient en introduisant au lieu de V, une statistique 
de classification sans biais (comparer avec (4.70)) 


pr=(i-e ) V7 == (1) RUN, 


rire 2 Hilo LOUE 


i—1;2. (4.76) 


Pour la statistique (4.76) on a 
v/2= | m{0t} M4)" = 


AC (2 +4 


En vertu de la formule (4.77) la régularité évoquée ci-dessus se 
manifeste également dans le cas d’une matrice des covariances in- 
connue, si seulement la condition (4.31) est vérifiée, c’est-à-dire si le 
nombre d'indices informationnels ne croît pas plus vite que la taille 
totale des échantillons d'apprentissage. L'accumulation de ces indi- 
ces donne alors une erreur de classification aussi petite que l’on veut 
si le carré de la « distance » entre les classes croît comme W!**e, 
eg >> 0. Dans le cas contraire, même lorsque les tailles des échantil- 
lons d’apprentissage augmentent indéfiniment, la probabilité d’er- 
reur pour Ÿ — œ tend vers une constante positive. 


(4.77) 


4.3. PROCÉDURES D'APPRENTISSAGE DE BAYES 


4.3.1. Méthode des probabilités a posteriori. Supposons que les 
paramètres 0,, . .., 8, dont dépendent les distributions w x (x | Ô1, 
Si), --., Wn (X | Ÿm, Sm) des classes soient des vecteurs aléatoires 
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indépendants, de distributions a priori w (04), 4 — 1, ..., m, qui 
rassemblent nos connaissances initiales sur les paramètres des distri- 
butions. Soit un ensemble d'échantillons d'apprentissage x:, — 
— (Xy, - - ..…, Xm), Où l'élément x, est le vecteur ligne xx = (x{*), . .. 
..., 2h) des échantillons classifiés, appartenant à la classe S;. 


* 


On l'utilise pour la correction des distributions à priori w (Ÿ;), 
c'est-à-dire pour la détermination des distributions a posteriori 
w (0: | x:, S2)- Supposons que les observations ont fourni le vecteur x. 
Le problème est de rapporter l'observation x à l’une des classes 
St On 

La formule de Bayes permet de trouver la probabilité a posteriori 
d'appartenance de l’observation à la classe S; pour x:,, x donnés: 


W (xap. XI SR) 

P{Saxop, 2} = 2 ap 28H) 
à 

2 PR W(xap, x | SR) 


(4.78) 


où p4 est la probabilité a priori d'appartenance de x à la classe S;. 
Connaissant les grandeurs P {S; |xa,, x}, . .., P {Sy | Xaps X }, 
on rapporte l'observation x à la classe S ; pour laquelle la probabilité 
a posteriori est maximale, c'est-à-dire 


P{S;|xaps X}> PS: ]|xXaps X} (4.79) 


pour tous les À = j. 
Comme 


W (xap X| Sr) = W (Xl xap Sr) W (Xap): (4.80) 
on déduit de (4.78) et (4.79) 
Pi MX] xap; Sx) > pr W(X[Xaps Sn) (4.81) 


pour tous les À = j. 

Ainsi, l'algorithme de classification consiste à calculer les gran- 
deurs pxW (x | Xxaps Sx), k = 1, . .., m, et à rapporter l’observa- 
tion x à celle des classes S; à laquelle correspond la maximale des 
grandeurs trouvées. Si les probabilités a priori p, sont égales entre 
elles, la classification pour un ensemble donné x,, revient à la déter- 
mination de la classe S; pour laquelle l'échantillon observé x maxi- 
mise la fonction de vraisemblance W (x | x», S2). Cette dernière 
peut être considérée comme l’estimation des distributions inconnues 
des classes pour un ensemble donné d'échantillons d'apprentissage x,.. 
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Calculons la fonction W (x | x:,, S:) par la formule de la proba- 
bilité totale: 


W (x xaps S3)= | W(x{xaps On, 5x) W (8x | aps Sx)dOx = 
Q8 


= [WRI 0, 51) W (@a 1x, 5x) dx, 01 EQx, (4-82) 
Qk 


car il est évident que W (84 | xap, Sx) = W (9: | xx, Sx), tandis 
que la fonction W (x | xap, Ÿx, Sx) ne dépend pas des échantillons 
d'apprentissage. 

La densite de probabilité a posteriori du paramètre @,, pour un 


échantillon d'apprentissage donné, se calcule par la formule de Bayes, 
à savoir 


W (0x | Xk S3) — W (02) W (xx | On) Sk (4.83) 
| w (0x) W (x | On, Sn) d'Or 
Qk 


Dans la formule (4.83) le second facteur montre l'influence de 
l'apprentissage avec maître sur la distribution a priori des paramè- 
tres Ô,, k — 1, ..., m. 

Notons que lorsque les paramètres ®, sont donnés et égaux à Ô*, 
leurs densités de probabilité conditionnelles sont des fonctions delta 


W (D, 1x4, Sx) = 6 (8x — 0%) 
et en vertu de (4.82) on a 
W (x | Xapr SR) = W (x | DE, Sn) 


comme il se devait. Dans ce cas l'algorithme de classification coïn- 
cide avec l'algorithme optimal de Bayes de vérification des hypothè- 
ses à alternatives multiples (voir tome II, 1.4.8). 


4.3.2. Détection d'un signal aléatoire noyé dans un bruit normal 
(cas unidimensionnel). Pour illustrer la méthode de classification 
exposée ci-dessus, nous allons considérer le problème de la détection 
d'un signal inconnu, noyé dans un bruit normal additif non corrélé, 
de moyenne nulle et de variance égale à 0°. Le signal est une variable 
aléatoire normale a, indépendante du bruit, de paramètres (a,, 0%). 
Le problème de la détection consiste dans ce cas de rapporter l’obser- 
vation zx soit à la distribution du mélange additif du signal et du bruit 
W, {x | ao, 05 + 0“). soit à la distribution du bruit W, (x | 0, 0°). 

Si la distribution a priori du signal est donnée et n’a pas besoin 
d’être corrigée par apprentissage, c'est-à-dire si l’on connaît les 
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paramètres du signal a,, 0’, alors 


» ”) o 1 (z— ao) 
W,(z T0 )=—---— Ex — ———— 4.84 
(10008 +0) exp [Er] (4.84) 
et 
x? 
NN 1 7 29% ’ 
W,(z10, 0°) se (4.84°) 


Le choix d’une décision (classification), suivant le critère du ma- 
ximum de la probabilité a posteriori, est alors un cas particulier de 
la règle de Bayes de vérification des hypothèses (détection d’un si- 
gnal). On décide que le signal est présent si 


Wi(zla, 02+02)>W;(z|o?), (4.84) 
et que seul le bruit est présent si c’est l’inégalité inverse de (4.84”) 
qui est vérifiée. En vertu de (4.84) à (4.84) l'algorithme de clas- 


sification peut s’écrire comme suit: l’observation À appartient au 
mélange du signal et du bruit si 


a X+5BX>C, (4.85) 
et au bruit si 
do x+1% X?<C, (4.85) 


S’il y a lieu de classifier non pas une observation, mais un échan- 
tillon (x,, .- .., zx), en conservant les hypothèses de l’indépendance 
des valeurs du signal et du bruit, il faut remplacer dans (4.85) et 
(4.85”) X et X* par les sommes des valeurs échantillonnées observées 
et les carrés de ces valeurs (voir tome II, page 65). Le dispositif op- 
timal de détection du signal se compose de deux blocs: d’un filtre 
accordé et d’un récepteur énergétique. Les valeurs de sortie sont som- 
mées, puis la somme est comparée à un seuil. 

Considérons maintenant le cas où les données a priori concernant 
les paramètres de la distribution du signal sont précisées au cours de 
l'apprentissage avec maitre. Supposons que l’on ait un échantillon 
d’apprentissage 21, . .., z, dont on sait qu'il appartient au mélange 
du signal et du bruit. La distribution a posteriori du signal est donnée 
par la formule suivante (voir tome II, page 136): 


W. (a|zi, …s2n)= ( me) (#5) « exp {—; a (1+ 


sa) Le (143) (3 +22)]),  &80 


15—0165 
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et, tout comme la distribution a priori, elle est normale. La diffé- 
rence est en ce que les paramètres a,, 0} de la distribution a posteriori 
dépendent de l’échantillon d'apprentissage, à savoir 


dn= mal ..2)=(1+ 2) (2 S za + me), (4.87) 


noë nr 
k=1 


On = Ma{alzi, ..., Zn} = 02/ (n + 02/05). (4.88) 


Par conséquent la fonction de vraisemblance W (X | zx, ..., x,) 
suit une loi normale de paramètres a, et 0°, et la règle de classifica- 
tion de l'observation X à l’aide de l'échantillon d'apprentissage 
Ti» + + + Zn S’obtient à partir de (4.85) et (4.85’) en remplaçant a, 
par la valeur de la moyenne conditionnelle a, de (4.87), et 0 par la 
valeur de la variance conditionnelle o* de (4.88). Autrement dit, la 
structure du dispositif optimal de détection reste inchangée, l’ap- 
prentissage n’intervenant que dans les valeurs des paramètres des 
blocs de ce dispositif. 

Pour nr — co, en vertu de (4.87) et (4.88) on a 


n 
1 8 
an — Sr O0 


i= {| 


et par conséquent lorsque la taille de l’échantillon d'apprentissage 
augmente indéfiniment le dispositif optimal de détection tend à être 
linéaire (le second terme dans le membre de gauche de (4.85) tendra 
vers zéro). L'observation se rapporte au mélange du signal et du bruit 


n 
e Lu Ta « id | « ee Q Lé e 
si aX >a/2, où a=— Ÿ, x. Cette règle coïncide évidemment avec 
(4.9) pour a, — a, a, = 0. 


4.3.3. Détection d’un signal aléatoire corrélé noyé dans un bruit 
corrélé. L'exemple envisagé peut être généralisé au cas des valeurs 
corrélées du signal et d’un bruit corrélé, en conservant l’hypothèse 
de l’additivité du bruit et de son indépendance par rapport au signal. 
Supposons que le vecteur des valeurs moyennes du bruit soit nul, et 
que sa matrice de corrélation soit M. La distribution a priori nor- 
male multidimensionnelle du signal est caractérisée par le‘vecteur des 
moyennes a, et la matrice de corrélation M,. La distribution a priori du 
mélange additif du signal et du bruit indépendants est également 
normale, de vecteur des moyennes a, et de matrice de corrélation 
M + M,. On dispose d'un échantillon vectoriel d'apprentissage x,, 

., X\ appartenant au mélange du signal et du bruit. Après l’ap- 
prentissage, la distribution a posteriori du signal est également nor- 
male, seuls changent le vecteur des moyennes et la matrice de corré- 
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lation (conditionnels), qui sont donnés par les relations de récurrence, 
vraies pour le vecteur des moyennes a, et la matrice de corrélation 
M, conditionnels de la distribution normale [2]: 


a, =M(M,;+M)'a,i+M,:(Mii+M)tx,, (4.89) 
M,=M(M, + M) M, (4.90) 
On en déduit 
M . M\-! M\-!t 
an=— (Moi) a+ Mo(Mo+—) pr D x (4.91) 
i= | 
M M \-! 
Ma = — (M++) M. (4.92) 


Les formules (4.91) et (4.92) sont particulièrement simples dans 
le cas où M — ÀM,, À étant une constante positive. On a alors 


1 | < 
An = ao > Xi, (4.93) 
i—1 
1 
Ma M (4.94) 


Dans le cas unidimensionnel (4.93) devient (4.87), et (4.94) coïncide 
avec (4.88), À — o*/0f. 

La fonction de vraisemblance W (x | x:,) est, dans le cas général, 
une fonction de répartition normale multidimensionnelle, caractérisée 
par le vecteur des moyennes a, et la matrice de corrélation M, donnés 
par les formules (4.91) et (4.92). Il y a lieu de souligner que seules 
les moyennes conditionnelles dépendent des échantillons d’appren- 
tissage (plus exactement, des moyennes échantillonnées), tandis que 
la matrice de corrélation conditionnelle ne dépend que de la taille r 
de l'échantillon d'apprentissage. 


4.3.4. Méthode euristique. Considérons maintenant le problème 
de la détection d’un signal inconnu noyé dans des bruits, lorsque l’on 
procède à un apprentissage sans maître, l’échantillon d’apprentis- 
sage n'étant pas classifié. Ceci signifie que l’on ne sait pas d’avance si 
la valeur échantillonnée z; appartient au mélange du signal et du 
bruit ou seulement au bruit. [l devient alors difficile de trouver la 
densité de probabilité a posteriori W, (a | r:,) du paramètre a pour 
l'échantillon non classifié xap = (21, - - -, zh). Il semble que l’on 
peut palier à cette difficulté en examinant une à une toutes les suites 
possibles x,, . .., x, où tout terme x; peut appartenir soit au mé- 
lange du signal et du bruit (état S,), soit seulement au bruit (état S,). 


Pour toute suite particulière I®? d'états lors de l'apprentissage, on a 
= (52, ...,8), 


15% 
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où chacun des éléments S°?,j — 1, ...,n, peut être soit S,, soit S,: 
la densité de probabilité a posteriori W; (a | xap; 11%) se calcule par 
la méthode examinée dans 4.3.2, tout comme dans le cas de l’appren- 
tissage avec maître. Le nombre de suites différentes pour un échantil- 
on d'apprentissage de dimension n est égal à 2". On a alors 


on 


Wi(alxap: Iln”)= D W(a[xaps 67) PE [xap}, (4.95) 
h=1 

où P {11° | Xap} est la probabilité pour que dans l'échantillon d’ap- 
prentissage soit réalisée la suite d'états IIS’. (Cette probabilité peut 
facilement être calculée en supposant, par exemple, que l’apparition 
ou la non-apparition du signal, lors de l'apprentissage, soient indé- 
pendantes, et connaissant la probabilité a priori d’apparition du 
signal dans l’une quelconque des observations.) 

En vertu de (4.95) le dispositif optimal de détection pour l’auto- 
apprentissage à l’aide d’un échantillon de taille x doit contenir 2” 
dispositifs identiques qui sont les mêmes que dans le cas de l’appren- 
tissage avec maître (filtre adapté et récepteur énergétique). Les ten- 
sions de sortie des dispositifs mentionnés sont multipliées par les 


coefficients de pondération P {N° | x,,} et les produits partiels sont 
sommés. Pour des échantillons d’apprentissage de taille de l’ordre 
de quelques dizaines, il devient problématique de realiser un dispo- 
sitif utilisant l’algorithme d'essais. Il est evident que lorsque l’échan- 
tillon d'apprentissage est petit, les règles de classification ne sont pas 
très bonnes, mais au fur et à mesure de l'augmentation de nr leurs 
caractéristiques tendent vers celles des algorithmes à statistique 
donnée de reconnaissance des classes. Cependant, la complexité du 
dispositif optimal, lors de l’apprentissage sans maître, croît alors 
comme 2”. 

Il est montré dans [61j que pour calculer la densité de probabilité 
a posteriori d’un paramètre inconnu d’une classe, on ne peut indi- 
quer un algorithme de classification fini, indépendant de la taille 
de l'échantillon d'apprentissage, que si les observations d’apprentis- 
sage Zi, - . . Zn Se Caractérisent par une statistique suffisante de di- 
mension finie. Pour le problème de détection d’un signal inconnu 
envisagé ici la densité de probabilité de tout élément de l’échantil- 
lon d'apprentissage (sans maître) a pour expression (voir (4.49)) 


| (zi—a} | , 1—p ri 
w,(zi|a) = VE exp | — A |+ SV exp (—-+), GE 


où p est la probabilité de présence du signal. Mais pour une densité 
de probabilité du type (4.96) il n'existe pas de statistique suffisante 
de dimension finie [12]. Par conséquent, la complexité d'un dispo- 
sitif optimal de détection utilisant un apprentissage sans maître 
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croît énormément avec l'augmentation de la taille de l’échantillon 
d'apprentissage. 

Voyons comment on peut simplifier la règle de classification lors 
de l'apprentissage sans maître, n’oubliant pas que cette simplifica- 
tion ne peut être réalisée qu’au prix d’une perte d’optimalité. Re- 
marquant que le dispositif optimal de détection d'un signal inconnu 
utilisant une procédure d'apprentissage avec maître a une structure 
suffisamment simple, et qu’au contraire, le dispositif analogue pour 
l’auto-apprentissage est très compliqué, il paraît naturel de recourir 
à une procédure consistant à deviner la suite d'états (S, — mélange 
du signal et du bruit, S, — bruit pur) lorsque l’on passe d’un élé- 
ment de l'échantillon d'apprentissage à l’autre, et d'utiliser cette 
procédure comme si elle était correcte (comme si elle était elle- 
méme « maître ») *). 

La structure du dispositif de détection devient alors identique à 
celle du dispositif optimal de détection avec maître, les résultats d’es- 
sais lors de l’auto-apprentissage sont utilisés pour corriger les para- 
mètres de ce dispositif conformément aux formules données dans 4.3.2. 
Comme les erreurs sont inévitables, le dispositif de détection n'est 
plus optimal. Cependant, comme noté dans [61], pour un fonctionne- 
ment satisfaisant d’un tel dispositif de détection, il n’est pas néces- 
saire que la suite d'états adoptée soit rigoureusement exacte. 

Il a été démontré que, lorsque les échantillons d'apprentissage 
sont de taille » importante, il existe un sous-ensemble de l’ensemble 
2" de toutes les suites d'états possibles, ayant les deux propriétés 
suivantes : 1) la probabilité d’avoir dans ce sous-ensemble une suite 
d'états réelle est voisine de l’unité; 2) si la suite choisie est un élé- 
ment de ce sous-ensemble, le dispositif de détection utilisant la mé- 
thode euristique tend pour nr —+ oœ vers la méthode optimale. Ma- 
lheureusement, à l'heure actuelle on n’a pas encore trouvé de méthodes 
efficaces permettant d'indiquer les sous-ensembles doués des pro- 
priétés mentionnées (voir également [56]). 

Une variante de la méthode euristique consiste à supposer que 
la suite des décisions adoptées au cours de l’auto-apprentissage est 
une suite euristique [59]. Dans cette méthode, on attribue initiale- 
ment aux paramètres du dispositif de détection des valeurs arbitrai- 
res. Chaque fois que le dispositif prend la décision sur la présence 
du signal, et que le signal soit réellement présent à cet instant, les 
paramètres du dispositif sont corrigés en conséquence. 


4.3.5. Algorithme adaptatif bayesien de Robbins. Pour utiliser 
la méthode usuelle de Bayes il faut connaître la distribution a priori 
des paramètres inconnus. Dans 4.3.1, la distribution a priori initiale 


._. *) Cette méthode est parfois appelée apprentissage avec maître réel, c'est- 
a-dire avec un maître pouvant <e tromper (voir également [23]). 
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du paramètre de la classe était modifiée en cours d’apprentissage 
avec maître. Posons la question de savoir s’il est possible d'employer 
l'apprentissage avec maître pour la solution des problèmes de clas- 
sification afin d'utiliser la méthode de Bayes sans hypothèses sup- 
plémentaires sur la distribution a priori initiale. On donne une ré- 
ponse affirmative à cette question grâce au théorème démontré par 
S. N. Bernstein et R. Mises dans [19]. Le théorème se résume en ce 
qui suit. Soit x, une valeur échantillonnée d’une distribution à para- 
mèêtre Ÿ inconnu (aléatoire). La distribution a posteriori de ce para- 
mètre est 


Wi(®|z:) = ur, () —_ "nr * (4.97) 
w, (0) M’, (z119) dd 


où w, (8) est la densité de probabilité a priori du paramètre ÿ. Si 
l’on extrait la valeur échantillonnée z,, indépendante de z,, alors 
W, (8 | x,) peut être utilisée en tant que nouvelle distribution a prio- 
ri pour le calcul de la nouvelle distribution a posteriori 


W,(z,. | Ô 
Wi(0/z:,22) = Wi(z:|Ÿ) 710 
MATIERE 


= w, (3) _ Wi(x118)W;(x21 8) ; (4.98) 


IÉAOLACTLLACALEL 
D'une manière analogue, pour un échantillon indépendant x;,, . . ., Zn 
de taille 7x, on a *) 
Wire tn) = 0, (0) Hair) 0 (4.99) 


À un (0) Wa (au + zn 10) 40 


—œ0 


— 


W; | Ti .2n|0)= || W(zxlÔ). 
k=1 


Le théorème mentionné ci-dessus affirme que si la densité de pro- 
babilité a priori w, (6) du paramètre Ÿ est continue, au fur et à mesure 
de l'augmentation de la taille de l'échantillon, la densité a posteriori 
W, (© |2,, - .., z,) cesse de dépendre de la distribution a priori. 
Donc pour nr suffisamment grand, il devient peu important quelle 


*) Notons que (4.99) est un cas particulier de (4.83). 
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fonction continue w, (8) utiliser dans (4.99). Ce théorème limite a 
constitué, sans doute, le pivot de la méthode adaptative de Bayes *) 
de la classification, proposée par Robbins [24]. 

Soit (z,, 01), - - ., (Zn, Ÿh) une suite de couples indépendants de 
variables aléatoires, tous les Ÿ,, i — 1, ..., n, ayant la même dis- 
tribution a priori w, (Ÿ), et tous les x; ayant la distribution 


© 


Wi(a)= | Wi(x10)u1 (0) d8. 


Pour des z; discrets, on a 
P{xi=z}= | P{ri=zx|d}u, (8) d8. 


Si l’on prend la décision y que l’observation À appartient à la 
distribution W, (x | Ÿ), des pertes apparaissent déterminées par la 
fonction non négative II (y, 8). Comme w, (Ÿ) est inconnue, on fonde 
le choix d’une décision sur l’échantillon d'apprentissage x,, . .., zh 
(les variables Ÿ,, . .., Ÿ, restant toujours inconnues). Il est dési- 
rable que cette règle se rapproche pour 7 —+ de la règle de Ba yes dans 
le cas où &, (Ô) est donnée. Une règle satisfaisant à cette condition 
est dite adaptative, asymptotiquement optimale. Nous allons nous 
limiter à l'exposé de cette méthode dans le cas particulier du pro- 
blème de la théorie des décisions statistiques à deux alternatives, à 
distribution a priori du paramètre Ÿ inconnue, mais donnant la sta- 
tistique des observations (dans [24] on peut trouver la formulation 
générale du problème). 

Introduisons la désignation 


A(z)= | [(y:, 9) —1(vo, 8) W:(z|8)w:(8)d8 (4.100) 
et supposons que la fonction À, (X) de l’observation X, dont la for- 
me dépend de l'échantillon d'apprentissage zx;, . .., z,, converge 
en probabilité vers A (X) pour rz —+ co. Dans ce cas on aura la règle 
adaptative asymptotiquement optimale suivante: on prend la déci- 


sion Yo Si 
An (4) >0, (4.101) 


et la décision y, si c’est l’inégalité inverse de (4.101) qui est vérifiée. 
(Pour les distributions discrètes, dans (4.100) il y a lieu de remplacer 
W, (x | Ÿ) par P {x; = x | Ÿd}.) 


4.3.6. Exemple d’algorithme de Robbins. Voyons un exemple 
illustrant la possibilité de trouver la suite de fonctions A, (x) con- 
vergeant en probabilité vers À (x). On vérifie l'hypothèse unilaté- 


*) On dit aussi méthode empirique de Bayes. 
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rale H que le paramètre Ô d’une distribution de Poisson d’une variable 
aléatoire x discrète ne dépasse pas une valeur donnée #;, c'est-à-dire 
que 8 < #,. Soit y, la décision consistant à adopter l'hypothèse H, 
et y, la décision rejetant cette hypothèse. La fonction de pertes 
I (Y:, 8) sera donnée comme suit: 


0 
F1 (Yo 9)= À à RC (4.102) 
ee 0 — Vo, D > Vo, 
Vo — Ÿ, Ù L Vo; 
nd {a 026% (4.402) 


Comme pour la distribution de Poisson d’une variable aléatoire 
discrète on a 


P{ai=z|d}=%e-t, 00, z=0,1,2,..., (4.103) 


en substituant (4.103) dans (4.100) (au lieu de W, (x | 8)) on obtient 
compte tenu de (4.102), (4.102”) 


A (x) = | (39— 0) e-° 10 (8) dd — 


U 


| = VoFi(z)—(z+1)F;(z+1), (4.104) 
où 
Fita)= | e-u (8) d9= P{ni= 2). (4.105) 
J 7 
Introduisons un compteur des coïncidences, à savoir 
4, z=7y, 
v(z,y)= 0, zæy, (4.106) 


et considérons la fonction suivante de x, dépendant de l'échantillon 
d’apprentissage Z;, . - ., Zn: 


Un ()= + D v(z, ti). (4.107) 

i=1 
La somme dans (4.107) est égale au nombre des valeurs échantil- 
lonnées d’apprentissage qui sont rigoureusement égales à x et, par 
conséquent, u, (x) est une distribution empirique de z convergeant 
en probabilité pour r + vers F, (x) (voir (4.105)). La fonction 


An (z) = Von (x) — (x + 1) ua (x + 1) (4.108) 


converge en probabilité vers A (x) donnée par (4.104). On en déduit la 
règle adaptative asymptotiquement optimale suivante: si l’on a un 
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échantillon d’apprentissage 21, . - ., x,, on prend la décision y 
(l'hypothèse FH est vraie) si 


n x | ñn 
Le S'v(X, x) IE S v(X +1, x) >0, (4.109) 
= 1 


i—!{ 


et la décision y, (l'hypothèse }7 est fausse) si on a l'inégalité inverse 
de (4.109). 


4.3.7. Recherche du minimum du risque moyen à partir d'échan- 
tillons d'apprentissage. Le risque moyen dans le problème de la 
vérification des hypothèses à alternatives multiples s'exprime par 


m m 


R= D SU OP, W(x|H) dx, (4.110) 


R=0 3=0 X 


où ®, (x) est la k-ième composante de la fonction de décision vecto- 


rielle ® (x) 
1, xCX:, (4.111) 
D: æ= À 0: xEX,;, jÆk, j—=0,...,m, 


X, est le domaine de l’espace d’échantillonnage X correspondant à 
la prise de la décision y, (adoption de l'hypothèse H,); Il;, sont les 
éléments de la matrice de pertes : p; les probabilités a priori des hyÿpo- 
thèses; W (x | H;) les densités a posteriori des valeurs échantillon- 
nées. 

Si toutes les grandeurs du membre de droite de (4.110) sont con- 
nues, la règle minimisant le risque moyen se formule comme suit : 
on adopte l’hypothèse 7, si (voir 4.1.6) 


m 
D Ein) LT >0, jæk, j—0,...,m. (4.112) 
i=0 

Le système d’inégalités (4.112) donne le domaine X, pour la fonc- 
tion de décision optimale. 

Dans les conditions d’incertitude a priori, lorsque les caracté- 
ristiques probabilistes p;, W (x | H;) sont inconnues, on peut ap- 
procher le membre de gauche de l'équation (4.112) de la surface de 
séparation par une certaine fonction connue, dépendant du para- 
mètre vectoriel Ÿ, que l’on peut estimer (sous certaines restrictions) à 
partir de la condition du minimum du risque moyen, par la méthode 
d'approzimation stochastique (voir annexe 2). Nous allons montrer 
que le problème de l’estimation du paramètre minimisant le risque 
moyen est identique au problème de la recherche d’un extremum (mini- 
mum) de la fonction de régression. 
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Introduisons la désignation 


Pas(0)= | Dix, 8)p; W(x|H;)dx. (4.113) 
X 


On peut alors écrire (4.110) comme suit : 


m ml 


R (Ÿ) — > >. [Te Puy (Ÿ). (4.114) 


R=0 3=0 


La formule (4.114) peut être interprétée comme la valeur moyenne 
de la variable aléatoire discrète z prenant m° valeurs possibles Il,;;, 
avec les probabilités P,;, (8) correspondantes. La variable z prend 
effectivement la valeur I1;, lorsque l'échantillon ayant la distribu- 
tion W (x | H;) appartient au domaine X, déterminé par l’approxi- 
mation adoptée (4.112) de la règle de Bayes. Sous forme analytique 
cette assertion s'écrit comme 


z—=f(x) =», (4.115) 
si x est un échantillon de la distribution W (x | /7;) et O, (x, ©) — 
= 1, KL). 

Ainsi 
R (9) = m1 ff (x) | 8}. (4.116) 


et le problème de la détermination du paramètre Ÿ* optimal revient 
ainsi à minimiser la fonction de régression (4.116) pour des distri- 
butions inconnues p;W (x | H;). Pour trouver l'estimation 9* par 
la méthode d’approximation stochastique, on a besoin d'un échantil- 
lon d'apprentissage indépendant x classifié, c’est-à-dire qu'il faut 
procéder à un apprentissage avec maître permettant de dire à quelle 
distribution p;W (x |H;),j #0, ..., m, appartient chaque valeur 
échantillonnée x,, À — 1, 2, .. 


4.3.8. Algorithme récurrent de discrimination de deux signaux 
inconnus. Pous illustrer la méthode générale exposée dans 4.3.7, 
nous allons envisager le problème de la discrimination de deux si- 
gnaux Set Si dont on ne connaît ni les probabilités a priori po, Pp1 — 
— 1 — po, ni les fonctions de répartition W, (x | So), Wa (x | Si). 
Le problème de classification le plus simple consiste dans ce cas à 
identifier l'observation, qui est une grandeur scalaire, avec la valeur 
du signal S, (hypothèse 7.) ou avec la valeur du signal S, (hypothèse 
H,). Effectuons le choix optimal de décision en conformité avec l’al- 
gorithme approché linéaire dépendant du paramètre scalaire inconnu 
Ÿ. Si z<Ÿ, l’observation doit être rapportée au signal S;,, et 
si x>Ÿ au signal S,. Soit un échantillon d'apprentissage classifié 
Lis + - «s Lan À l’aide de cet échantillon d’apprentissage, il y a lieu 
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de trouver pour la règle de classification formulée ci-dessus l’esti- 
mation récurrente du seuil optimal Ÿ* qui minimise le risque moyen. 
Pour le problème envisagé le risque moyen est (voir (4.110) pour 
m = 1): 
R (8) = Too Pol — € (0)] + Hoi Po & (9) + To p1 B (9) + 
TI, p1l1 — 8 (Ô)1, (4.117) 
où æ& (0), B (Ÿ) sont les probabilités conditionnelles d’erreurs de pre- 
mière et de seconde espèce, égales à 


a (9) — | D(z, 8) Wi(z|So) az, (4.118) 
B(0)= | 1—@(x, 0) Wi (151) d2, (4.419) 
et 
1, zx>Ÿ, 
OD(zx, Ÿ) — {0 z<6. (4.120) 


En vertu de (4.117) le risque moyen est une fonction de régression 
pour la variable aléatoire discrète z — f (x), avec les quatre valeurs 
possibles suivantes: 

Il, lorsque ® (x, 9) = 0, i.e. x << Ÿ, et x est une valeur échan- 
tillonnée issue de la distribution du signal S,; 

[1,1 lorsque ®D (x, 8) = 1, i.e. x > Ÿ, et x est une valeur échan- 
tillonnée issue de la distribution du signal S, ; 

IT, lorsque D (x, 8) = 0, i.e. x << Ÿ, et x est une valeur échantil- 
lonnée issue de la distribution du signal S,; 

I1,, lorsque ® (x, Ÿ) = 1, i.e. x > Ÿ, et x est une valeur échan- 
tillonnée issue de la distribution du signal S;. 

Nous allons nous limiter au cas où la fonction À (8) a un mini- 
mum unique. Ce cas a lieu, par exemple, pour [so = Il = 0 
Io = Ho — 1. En vertu de (4.117) on a alors 


R (8) — po (8) + p1B (Ÿ), (4.121) 


ce qui coincide avec la probabilité totale d'erreur. 

La courbe de la fonction de risque (4.121) (fig. 4.1) a un mini- 
mum unique pour Ÿ — Ô*. Les valeurs asymptotiques de cette fonc- 
tion sont Z? (—co) = p1 et R (oo) = Po. 

Pour estimer le seuil optimal 8* dans les conditions d'indéter- 
mination a priori on peut utiliser la procédure itérative de l'appro- 
ximation stochastique (voir (10) dans l'annexe 2). Soient 8, une 
constante quelconque, {c;}, {a,} des suites de nombres positifs, 
satisfaisant à la condition (8) de l’annexe 2, et x1, ..., ze un 


L 
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échantillon d'apprentissage classifié. Dans ce cas l'estimation récur- 
rente du seuil 8* est de la forme 


Ones = D — au EE, k—1,2,...,n, (4.122) 


Où 2°, = à lorsque 4 appartient a la distribution du signal S,_; 
et D (en Ÿx — cn) = ii, i = 0; 1; 2-1 = i lorsque x,:_1 appar- 
tient à la distribution du signal S, et ® Ce u Vx—cr)=i,i = 0; 


Fig. 4.1. Fonction de risque. 


Lorsque la taille de l’échantillon d'apprentissage augmente indé- 
finiment (n7 — co), l’estimation Ô, tend en probabilité vers le seuil 0* 
minimisant le risque moyen (probabilité totale d’erreur) R (8*). 
Avec des restrictions supplémentaires à À (8) on peut assurer la 
convergence en moyenne quadratique [43]. 


4.3.9. Utilisation de la méthode des fonctions potentielles. Consi- 
dérons deux classes caractérisées par des distributions à ÀV dimensions 
wn, (x)etwx, (x), x € X, et les probabilités a priori p1, p. d’apparte- 
nance de x à la première ou la seconde classe respectivement. Si l’on 
connaît ces caractéristiques statistiques, le rapport de vraisemblance 
L'(x) = pau x, (x)/Lpu x. (x)] peut servir de statistique optimale 
de classification. Dans les conditions d'indétermination a priori, 
on peut essayer d'approcher (estimer) la statistique de classification 
à l’aide de l'échantillon d'apprentissage indépendant y,, ..., y, 
de l’espace X *).: 

Ecrivons la statistique de classification inconnue ! (x) comme le 
développement suivant une base orthonormée finie {q; (x), 


» Pm (X)} : 


L(x)& D(x)= Ÿ ax pa (x). (4.123) 


k=1 


*) Dans [34] on étudie le cas des échantillons d'apprentissage corrélés. 
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Introduisons la fonction potentielle (voir annexe 1) 


K(x,y)= D pa (x) pa (y): (4.124) 


k=1 

il est montré dans [1] que D (x) peut être approchée suffisamment bien 

par la fonction D, (x, y,) obtenue par l’algorithme de récurrence 
suivant 

D, (x; Yn) = Das (x nes) + ns K (2% Yan); (4.125) 


où {r,} est une suite numérique satisfaisant à la condition de con- 
vergence de D, vers D pour ñ7 — (pour plus de détail voir [1)). 
En désignant par a,, les coefficients du développement de D, (x, y,) 
relativement à la base (x) (voir (4.123)), on obtient à partir 
de (4.125) l’algorithme récurrent suivant d'estimation des coef- 
ficients a; du développement de la fonction D (x) dans la base men- 

tionnée : 
Uhr = Gh.n1 + ln-1 Pr (Yn)- (4.126) 


Pour commencer la procédure on prend pour le coefficient a;, une 
constante quelconque. 

Dans [9] on examine un algorithme d’apprentissage, où l’on prend 
en qualité de fonction potentielle une fonction quelconque définie 
positive. La fonction D (x) est un élément de l’espace hilbertien à 
noyau reproduisant généré par la fonction potentielle. Dans [9] 
on montre que les théorèmes de convergence démontrés pour l’algo- 
rithme (4.125) restent vrais pour une classe plus générale de 
fonctions potentielles. 


4.3.10. Approximation de la statistique de classification par la 
méthode de Parzen-Nadaraïa. Soit x{i:),..., x0n) une suite d’échantil- 
lons d’apprentissage vectoriels (à V dimensions) indépendants appar- 
tenant à la i ième classe (i; = 1, 2, j = 1, ..., n). Chacun des 
vecteurs x, apparaît avec la probabilité p, si i; — 1 et avec la proba- 
bilité p, si it; = 2. Introduisons la variable aléatoire discrète v, 


pouvant prendre deux valeurs 
v,— xx, (4.127) 
Oo si xx 
Il est évident que 
P{vy=1} = ps P{vi=0}= pr 
Pi t+P: = 1. (4.128) 
En introduisant la désignation 
= vx) + (1 —v,) xf?, (4.129) 
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on peut réunir les deux suites d'apprentissage en une seule y — 
= (Y1, - - +, Mn) et utiliser cette suite pour approximation (estima- 
tion) de la statistique de classification D (x). 

Comme D (x) > 0, on peut employer pour estimer D (x) les 
mêmes méthodes que dans le cas de l'estimation de la densité de pro- 
babilité multidimensionnelle (voir annexe f{, A. 1.2). Servons-nous 
pour approcher D (x) de la fonction 


D, (x, 39 = + S Cv 1) Ki(x, y) (4.130) 


I=1 


N 
RiGs)= [] {K [#4 | fnitm}, 
i= | 


le noyau K(z) et les constantes h;(n) vérifiant les conditions (18), 
(19), (22) et (22”) de l’annexe 1, A. 1.2. 
Il est montré dans [63] que la suite 


Pa GP = (ID, (x, 39) — D (x) dx (4.131) 
NX 


converge en probabilité vers zéro lorsque la taille de l'échantillon 
d'apprentissage x croît indéfiniment. Par ailleurs, l'estimation de 
la probabilité d'erreur de classification d’après la statistique de clas- 
sification D,(x, x?) converge vers la probabilité d'erreur de clas- 
sification propre à la règle optimale utilisée avec une information a 
priori complète. 


4.3.11. Méthode adaptative d'élimination de l’indétermination 
a priori des paramètres perturbateurs. Comme note dans 1.1.7, dans 
certains problèmes pratiques de détection et de discrimination des 
signaux, les fonctions de vraisemblance des échantillons dépendent 
non seulement des paramètres informationnels, mais également des 
paramètres perturbateurs. Supposons que dans le problème de la 
vérification des hypothèses à alternatives multiples, la fonction de 
vraisemblance correspondant à la j-ième hypothèse, dépende du 
paramètre vectoriel perturbateur y,, j = 0, 1, ..., m. L'expression 
(4.110) du risque moyen sera dans ce cas une fonction de y = 
—= (Vos + - +, Ym)» SOit 


R(yr)= Ÿ 5 Il Ju (x) 5 W (x| Hp vi) dx. (4.132) 
R=O j=0 


Si l’on connaît les distributions a priori W (y;) des paramètres 
perturbateurs, on peut (voir tome II, 1.4.2) exclure ces derniers par 
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moyennage sur W (y;). On est amené alors au problème du choix 
optimal de décision, par minimisation du risque moyen, moyenné 
suivant les paramètres perturbateurs, i.e. il y a lieu de minimiser la 
quantité 

w Lo) 


=) SI, \ D (x)p; W(x|H,)dx, (4.133) 
où k=0 Far | 


Fr 


Dans les conditions d’indétermination a priori des paramètres 
perturbateurs, lorsque les distributions W (y;) sont inconnues, on 
peut utiliser des échantillons d'apprentissage pour le calcul approché 
de l'intégrale (4.134). A cet effet, on trouve, à l’aide des échantillons 
d'apprentissage, les estimations du maximum de vraisemblance y; 


des paramètres perturbateurs. En supposant que les dérivées corres- 
pondantes existent, on a (voir [5)) 


Wxl4)=eW(xl4,%)W() (22) (det A, "2, (4.135) 


où W;est la dimension du vecteur y; et A; la matrice donnée par la 
formule 


____ fainW(x|H;, vpn). = 
A= — (EN | y = 9; (4.136) 

L’approximation (4.135) sera suffisamment bonne si les distri- 
butions a priori des paramètres perturbateurs sont bien plus larges 
que les distributions a posteriori établies d’après les échantillons 
d’apprentissage. La fonction W (y;) accuse une dépendance plus 
faible par rapport à x que les autres facteurs dans (4.135), ce qui per- 
met de l’envisager, tout comme (2x)"i/*, comme un facteur négli- 
geable. En vertu de (4.132) et (4.135), l'algorithme optimal de véri- 
fication des ne est fondé sur la minimisation de la grandeur 


R= 9 S Il, \ D (x) p;W (xl A Y)ldet A,]7 2 dx. (4.137) 
k=0 j=0 
Pour une fonction de pertes simple 


Ty =1—6n (4.138) 


où 6;: est le symbole de Kronecker, la règle optimale de choix d’une 
décision se formule comme suit: on adopte l'hypothèse H; si pour 
tous lsijona 


WHY det A;71/2 
Ne pi Wi(xl Hi, Yi) 2 | Set À A; (4.139) 
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4.4. ALGORITHMES ADAPTATIFS ASYMPTOTIQUEMENT 
OPTIMAUX DE DÉTECTION DES SIGNAUX NOYÉS DANS 
DES BRUITS 


4.4.1. Principes de construction des algorithmes adaptatifs asymp- 
totiquement optimaux. Le critère général de qualité d’un algorith- 
me adaptatif, comme nous l’avons noté dans 1.2.5, est sa consistance, 
c'est-à-dire sa convergence en probabilité vers l’algorithme optimal 
construit à partir de l'information a priori complète et lorsque la 
taille de l'échantillon d’apprentissage augmente indéfiniment. 

On obtient des algorithmes adaptatifs consistants de détection à 
partir des algorithmes optimaux en utilisant au lieu des fonctions 
de distribution inconnues, ou de leurs paramètres, les estimations 
convenablement choisies et calculées à l’aide des échantillons d’ap- 
prentissage. Cependant, le critère de consistance ne donne pas d’une 
manière univoque l’algorithme adaptatif de détection de signaux. 

On peut également déduire des algorithmes adaptatifs consistants 
à partir des algorithmes asymptotiquement optimaux de détection 
des signaux examinés au chapitre 3. Bien que ces algorithmes possè- 
dent une certaine stabilité de structure, pour les utiliser on doit dis- 
poser d’une information a priori sur la distribution du bruit et son 
interaction avec le signal afin de trouver la caractéristique du con- 
vertisseur non linéaire (non inertiel pour un bruit indépendant ou 
inertiel pour un bruit corrélé) des observations et de calculer le seuil. 
À partir d’un échantillon d'apprentissage, on peut, en utilisant des 
estimations convenablement choisies de la caractéristique de non- 
linéarité mentionnée et du seuil, obtenir des algorithmes adaptatifs 
consistants de détection. Héritant toutes les qualités des algorithmes 
asymptotiquement optimaux, ils acquièrent une nouvelle propriété, 
a savoir la possibilité d’être utilisés en cas d’indétermination a priori 
quant au type du bruit. 

Notons la particularité suivante des algorithmes adaptatifs asymp- 
totiquement optimaux. Comme dans le cas des algorithmes asymp- 
totiquement optimaux on suppose vérifiée la condition (1.50) de 
décroissance de l'amplitude du signal lors d’une augmentation illi- 
mitée de la taille r de l’échantillon observé, l’estimation (suivant le 
coefficient d’efficacité asymptotique relative) d’après un échantil- 
lon d’apprentissage classifié du bruit est aussi efficace pour 7 —+ 
que d’après un échantillon non classifié pouvant appartenir tant au 
bruit qu’au mélange du signal et du bruit *). Le fait de disposer d’un 
échantillon classifié (apprentissage avec maître) influe sur la qualité 
de l’algorithme utilisé dans le cas des 7» finis. Autrement dit, la 
vitesse de convergence d’un algorithme adaptatif asymptotiquement 


*) Ce qui s'explique par l’équivalence asymptotique signalée au chapitre 
3 des mesures probabilistes lorsque l’hypothèse et l'alternative se rapprochent. 
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optimal, pour des estimations utilisant un échantillon classifié de 
bruit, sera plus grande qu'avec un échantillon non classifié. 

Soient {6, } une suite d’algorithmes de détection de signaux, asymp- 
totiquement optimaux pour une distribution donnée du bruit, et 
{6.1} une suite d’algorithmes adaptatifs utilisant un échantillon 
classifié du bruit de taille fixée M. Désignons par p;r (6, ôu) le 
coefficient d'efficacité asymptotique relative de la suite d’algorith- 
mes adaptatifs {6,, 1} par rapport aux algorithmes non adaptatifs 
{6,}. Nous dirons que l'algorithme adaptatif 6,, est asymptotique- 
ment optimal, si 


lim Par (6, Ôar) = 1. (4.140) 
M—00 


4.4.2. Algorithme adaptatif asymptotiquement optimal de détec- 
tion d’un signal déterministe noyé dans un bruit markovien k-fois 
connexe. Soit y} = (y,,..…., ya) un échantillon classifié appartenant 
à la distribution d’un bruit markovien k-fois connexe (M >> k). 
Lorsque la distribution du bruit est inconnue, à partir de cet échan- 
tillon on peut obtenir une estimation des grandeurs suivantes, dé- 
pendant de la distribution inconnue, du développement asymptoti- 
que (3.211): . 

Ji (Ri-x) = 85 (in, y1), (4.141) 
M 
"> 1 F rs 
Ky=-7 Dh (yi-) 5 (9-1) = 
i=! 
: M | | 
= De(si-n 1) 87 (vin V1). (4.142) 
=! 

La règle adaptative de détection d’un signal déterministe se for- 

mule comme suit : le signal est présent si 
| n 
Van D L'xi-n)si-x — Ltr(QKIZC, (4.143) 
i= | 
et il n’y a pas de signal si c’est l'inégalité inverse de (4.143) qui est 
vérifiée. k 

Les composantes du vecteur des estimations f et les éléments de 

la matrice des estimations K sont donnés respectivement par (4.141) 


et (4.142). 

On peut montrer que l'algorithme adaptatif de détection (4.143) 
est asymptotiquement optimal si pour toutes les valeurs j — 0, ... 
..., RONA 


lim m1 {[&, (us 1) — f5(xi-2)P} = 0, (4.144) 


16—0165 
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c'est-à-dire si les estimations f; convergent en moyenne quadratique 
vers f; lorsque la taille M de l'échantillon d'apprentissage augmente 
indéfiniment. Dans (4.144), on prend la moyenne sur les produits des 
espaces des échantillons observés et des échantillons d'apprentissage 
pour l’hypothèse F7. De plus, il faut que 


n 


| 1 l 
lim -z à pinnil<oo, 1=1,...,m, (4.145) 
1=0 
où œp!_, ; est le vecteur colonne de la matrice du signal @;_,; (voir 


3.239)). 

| ir de la condition (4.145) on peut exiger que les estimations 
fxi, soient centrées. Cependant, si l'espérance mathématique de 
l'estimation n’est pas donnée et il est impossible de la centrer, on 
devra se limiter aux signaux sans composante constante, comme il 
se devait conformément à (4.145). 


4.4.3. Algorithme adaptatif asymptotiquement optimal de détec- 
tion d’un signal quasi déterministe noyé dans un bruit markovien 
k-fois connexe. En utilisant (3.243), on peut formuler la règle adap- 
tative de détection d’un signal quasi déterministe s—@’@: le signal 
est présent si 


| wm(8)exp(y9'Ÿ,—28 B8)d8>c, (4.146) 
8 
et il n’y a pas de signal si c’est l'inégalité inverse de (4.146) qui est 
vérifiée. Dans l'inégalité (4.146) on a désigné 


11 


> 1 Cri 5 
Yn = TE 2 LE (Xi-x) Pins (4.147) 

et B la matrice des estimations à éléments 
B,,=tr[K A0]. (4.148) 


« 


Ÿ, et B s’obtiennent à partir de l’échantillon d’apprentissage 
du bruit yY. 
Les composantes du vecteur des estimations f et les éléments de 


la matrice des estimations K sont donnés par (4.141) et (4.142). 
On peut montrer que les conditions (4.144) et (4.145) sont suffisantes 
pour que l’algorithme (4.146) de détection d’un signal quasi déter- 
ministe noyé dans un bruit markovien k-fois connexe soit asymptoti- 
quement optimal. | 
Considérons maintenant quelques exemples de construction des 
algorithmes asymptotiquement optimaux de détection des signaux, 
utilisant les estimations satisfaisant à la condition (4.144). 
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4.4.4. Algorithme adaptatif asymptotiquement optimal de dé- 
tection d'un signal déterministe noyé dans un bruit additif à valeurs 
indépendantes (indétermination paramétrique). Supposons que la 
densité de probabilité inconnue w, (x | 0) d’un bruit additif à va- 
leurs indépendantes appartienne à une certaine famille paramétrique 
de densités. A titre d'exemple, on peut citer les fonctions de Pearson 
(voir par exemple [14]) ainsi que les densités susceptibles d’être 
approchées par des sommes finies de polynômes orthogonaux. Dans 
ces cas la dérivée logarithmique inconnue f (x) de la densité de pro- 
babilité du bruit (voir (3.19)) peut s’écrire comme le rapport 


Î (x) = P (2)/Q (à), (4.149) 
où P (x), Q (x) sont des polynômes de degré fini dont les coefficients 
s'expriment en fonction des moments mx, k = 1, ..., NV, de la dis- 
tribution w, (x | 0). En remplaçant ces moments a priori par les mo- 


ments échantillonnés m*, calculés d’après un échantillon d’appren- 
tissage classifié du bruit : 


1=1 
on obtient l'estimation de la dérivée logarithmique : 
f(z)=P(z:mt,...,mN)/Q (zx; mi, ...,mÿ). (4.150) 
Cette estimation satisfait à la condition (4.144) qui dans le cas 
envisagé s'écrit 


lim | {[f(x)—f(x)Puw(x|0) dr =0. (4.151) 


M—o 


En plus de la correction de la caractéristique f (x) du convertis- 
seur non linéaire non inertiel d'entrée, il faut également corriger le 
seuil dont la grandeur dépend de la valeur inconnue 1}: (voir (3.13) 
et (3.15)). 


Pour un échantillon d'apprentissage indépendant du bruit y, 
en vertu de la loi des grands nombres, l’estimation 
M 
î 1 
lee D À (y) (4.152) 


i= | 


converge en probabilité vers 1;: lorsque la taille de l’échantillon d’ap- 
prentissage augmente indéfiniment. 


4.4.5. Algorithme adaptatif asymptotiquement optimal de détec- 
tion d'un signal déterministe noyé dans un bruit additif à valeurs 
indépendantes (indétermination non paramétrique). Supposons que 


16% 
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la densité de probabilité inconnue w, (x | 0) du bruit additif à va- 
leurs indépendantes appartienne à une famille non paramétrique de 
densités. Pour construire un algorithme adaptatif asymptotiquement 
optimal de détection d’un signal, il y a lieu dans le cas envisagé de 
trouver l'estimation non pas de la densité de probabilité elle-même, 
mais de sa dérivée logarithmique. En utilisant la méthode des fonc- 
tions potentielles (voir annexe 1, A. 1.1.) on obtient l’estimation 
suivante de la caractéristique f (x) du bloc non linéaire d’après 
l'échantillon d'apprentissage y# du bruit: 


M Om M mm 
fta)= 3 D qù (æ) qu (wo) / Z À qu(aqu(u), (4.153 
1 


OÙ 1 (T), + - .» Pm (Z) est une base orthonormale. 
On obtient une autre estimation par la méthode de Parzen- 
Nadaraïa (voir annexe 1, A. 1.2) avec un noyau exponentiel : 


M M 
a Ô . ( — )* 


i= | 


(z—y;)*" e 
— LÉ (4.154) 


où À (M) — 0 pour M —+ co. 

On peut montrer que les estimations (4.154) satisfont à la condi- 
tion (4.151) et, par conséquent, les algorithmes adaptatifs utilisant 
ces estimations sont asymptotiquement optimaux. 


4.4.6. Algorithme adaptatif asymptotiquement optimal de dé- 
tection d’un signal déterministe noyé dans un bruit additif markovien. 
Supposons que la densité de probabilité de transition inconnue d’un 


bruit additif markovien (simplement connexe) appartienne à une 
famille exponentielle du type général [29,37]: 


w (zi|zi-1) — EXP { T'(œ,, 2 Ax\) Pis, .…. Br) + 


N N NN 
La > @ y (xi) + > 2 Be y (Zi) pr (1) } : (4.155) 


w dépend du paramètre vectoriel &œ = (œ1, . .., &,) et du paramètre 
matriciel B — (B;,;) pour une famille donnée de fonctions linéaire- 
ment indépendantes ; (x), j = 1, , N. La fonction F (œ, f) 
se détermine à partir de la condition de normalisation 


| w(ri|zi-1) dzri= 1. 


— Co 
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Les dérivées logarithmiques de la densité de transition déterminant 
la statistique (3.223) sont dans ce cas 


1) 
fi (zi, m)= In w (zi —s;| Tizs —Si-1)| 


Hé 0 
N NN 
= D api) + NN D Ba pi(zi) p, (xi1), (4.156) 
j=1 j=1 1=1 
() 
Î (Zi, Lo) = 0571 In 7 (zi —s: | Ti] —Si- 1) | Ps 0— 
NN 
= D D Brprzi) qi(zi-1). (4.157) 


On peut montrer que les estimations fi (z1, z2), fo (Zi, Ze) obte- 
nues à partir de (4.156) et (4.157) en substituant au lieu de «; et B;, 
les estimations du maximum de vraisemblance, trouvées d’après 
un échantillon (d’apprentissage) classifié du bruit, satisfont à la 
condition (4.144). Pour la correction du seuil, il y a lieu de former 


également, toujours à l’aide de l'échantillon d'apprentissage, les 
estimations des grandeurs X 55, Ko1 X 11 (voir (3.234)): 


M-! 
nm 1 A” Fa , 
Kj=g— D falye Yiss) fiv yis1), Lj=0;1. (4.158) 


i=1 


4.4.7. Détection d'un signal quasi déterministe noyé dans un bruit 
additif markovien multiplement connexe, satisfaisant à l'équation 
d'autorégression. Supposons que la suite des valeurs du bruit additif 


markovien satisfait à l'équation d'’autorégression linéaire *) à 
coefficients inconnus 


R 
D ÀjTi-j = E, i=k+1,k+2,..., (4.159) 
j=0 

où €, est une suite de variables aléatoires indépendantes de densité 


de probabilité inconnue w, (z). Dans ce cas la densité de probabilité 
de transition du bruit est 


k 
w (zi|xiZ 5) = a > À; m) , 


J=0 


*) Notons que le modèle envisagé dans 2.2.1 de l’autorégression est un cas 
particulier de (4.159) pour k = 1. 
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et la dérivée logarithmique de la densité de probabilité s'écrit 


k k 
féi)=hu(S Manu S Axis), j=1,...,k (4160) 
l j=1 


= 


En portant (4.160) dans (3.215) on trouve la statistique vectorielle 
donnant l’algorithme asymptotiquement optimal de détection d’un 
signal quasi déterministe noyé dans un bruit additif satisfaisant à 
la condition (4.159): 


ne D RG. 0 we lR (sin) ul (xi-n)ls (4.161) 
i=1 


ou R désigne l'opérateur . 
R (ui _») — > Àjui_;. (4.162) 
j=1 

L’estimation f; (x;-x) satisfaisant à la condition (4.144) est don- 
née par (4.160) à condition d'y remplacer les coefficients de régres- 
sion inconnus À, par leurs estimations du maximum de vraisemblance 
trouvées d’après un échantillon d'apprentissage du bruit. 

Si {e;} est une suite de variables aléatoires normales indépendan- 
tes, le système d'équations du maximum de vraisemblance par rap- 
port aux coefficients de régression inconnus, où l’on a rejeté les termes 
convergeant vers zéro lorsque la taille de l'échantillon d’appren- 
tissage augmente indéfiniment, est (voir [22, 34]) 


h 
> À; T'; (y) = 5", 


j=0 


k 
> Arij-n (y) =0, L=1,2 5; (4.163) 
J=0 


Où y — (Y1, . - ., Uar) est le vecteur des échantillons d’apprentissage 


et 
M 


1 
(= D, Yi. (4.164) 
i=j+1 


Pour un bruit markovien biconnexe (#4 = 2) la solution du systè- 
me (4.163) est 


Ce _— 2 2 2 \ —1/2 

À = (ro—r: En it ) : (4.165) 
£ Pile —ror ee 
À = Der | : (4.165") 
Dr ninrs (4.165") 
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4.5. PROPRIÉTÉS ASYMPTOTIQUES DES ESTIMATIONS 
DE BAYES DES PARAMÈTRES DU SIGNAL 


4.5.1. Position du problème. Le modèle général du signal est 
donné par une fonction du type s(£, Ÿ), où Ÿ est un vecteur aléatoire 
appartenant au sous-ensemble © de l’espace euclidien, de densité 
de probabilité w (ÿ) donnée dans cet espace. Nous avons supposé 
que cette densité était connue à l'avance. En réalité il se peut que 
les paramètres aléatoires du signal ne soient pas connus, et dans ce 
cas le principe d'adaptation impose de substituer, dans les algorith- 
mes optimaux, au lieu des paramètres inconnus des signaux, leurs 
estimations obtenues d’après des échantillons du signal mélangé 
avec du bruit (comme nous l’avons montré sur l'exemple de 4.3.2). 
Mais comment construire l'estimation du vecteur des paramètres 
du signal? Dans ce paragraphe nous allons montrer que pour une 
augmentation illimitée de la taille de l’échantillon d'apprentissage 
(du temps d'observation) les estimations de Bayes des paramètres 
du signal acquièrent des propriétés d’invariance par rapport aux 
variations de leurs distributions a priori et de leurs fonctions de per- 
tes. 


4.5.2. Estimation bayesienne de l'amplitude d'un signal noyé 
dans un bruit normal additif pour un temps d'observation grand. 
Commençons par un exemple simple où la fonction du signal s ({, 8) — 
— as(t) dépend d'un seul paramètre aléatoire, à savoir de l’am- 
plitude 8 — a. Pour une distribution a priori quelconque w, (a) de 
l'amplitude du signal, l'estimation de Bayes de cette amplitude, pour 
une fonction de pertes quadratique, est égale à (voir tome IT, page 112) 


à — | a W [a/x (t)] da, (4.166) 


où zx (t) est la réalisation observée sur l’intervalle (—T, T) du mé- 
lange additif du signal as (t) et d’un bruit aléatoire normal de valeur 
moyenne nulle et de fonction de corrélation B (ft, y) donnée. 

En portant dans (4.166) l’expression de la densité de probabilité 
a posteriori W [a | x (f)] du paramètre estimé (voir tome II, 3.6.4), 
on trouve 


[ aw, (a) exp (arr sr) da 
QE (4.167) 


| w (a) exp (arr + sr) da 


248 ALGORITHMES ADAPTATIFS [CH. 4 


où 
T T 
Zr = | V (3 (e) dt, Sr= | Vs()dt 
2T 


2T 


et V (t) est solution de l’équation intégrale 


T 
| B(t,u)V(u)du=st(t), |t|I<T 


—T 


En complétant les exposants des exponentielles dans (4.167) 
jusqu'à obtenir des carrés parfaits, on trouve après des transforma- 
tions algébriques Dr 


Comme pour T7 — œ la grandeur s- croît indéfiniment, on a 


sr ST TT \° a à 
V æexp[-#(a-4) ]-6(e-2). 
Puis en supposant w, (a) continue et en utilisant la propriété de fil- 
tration de la fonction delta, on obtient à partir de (4.168) une formule 
asymptotique pour l'estimation de Bayes de l’amplitude pour 
T — © : 
T 


T 
-i= | V(t)z(t) at | | V (t)s(t) dt. (4.169) 
T TT ST 


Indépendamment de la forme de distribution a priori w: (a), 


l'estimation de Bayes a de l'amplitude a converge pour T —+ vers 
l'estimation du maximum de vraisemblance (voir tome II, 3.6.3). 
Dans le cas où le processus aléatoire additif est un bruit blancona 

T 


1 
Sr = À s2 (+) @e, 
c'est-à-dire que la convergence asymptotique signalée se trouve réa- 
lisée lorsque le rapport de l'énergie, sur l'intervalle d'observation, 
d’un processus déterministe à la densité spectrale du bruit blanc addi- 
tif croit indéfiniment. 
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L'’estimation sans biais du maximum de vraisemblance amy — 
— xzr/sr à une distribution normale de variance égale à s7'. Par 
conséquent, pour 7 —+ œ la densité de probabilité conditionnelle 
de l'estimation de Bayes peut s’écrire comme 


W (a | = & exp[ —T(a—a; |, (4.170), 


donc la densité de probabilité absolue W, (a) de l'estimation de 
Bayes a pour ? — tend vers w: (a): 

Wi(a)= | wi(a)W (a | a) da — w, (à), 
i.e. vers la distribution a priori du paramètre inconnu, où la variable 
a est remplacée par son estimation du maximum de vraisemblance. 


&.5.3. Propriétés asymptotiques de l'estimation bayesienne du 
paramètre vectoriel d’un signal noyé dans un bruit normal additif. 
Nous allons envisager maintenant le cas plus général lorsque la réa- 
lisation observée est 


z(t) =s(t, Ÿ) + E (t), (4.171) 
où s (1, Ô) — Doug (£) = ®’ (1), 8 un paramètre vectoriel dont la 


densité de probabilité est égale à w,, (0); E ({) un bruit aléatoire 
normal non stationnaire de valeur moyenne nulle et de fonction de 
corrélation donnée B (t, y). Après discrétisation de la réalisation 
observée, on obtient un échantillon x de taille » 


— Ÿ'p = y, 
où œ est une matrice m X n à éléments œ, (t;), k —= 1, ..., m, 
i=1,...,n, et y un échantillon vectoriel du bruit issu d’une 


loi normale de vecteur des moyennes nul et de matrice des covariances 
B = (B ({;, t;)) de dimension nr X n. Dans la suite il sera commode 
d'utiliser la matrice de corrélation normée 


b = nB/tr B, (4.172) 
ainsi que la grandeur 
v = Ô’pp'Ô/tr B, (4.173) 


qui est le rapport signal/bruit généralisé. 
La fonction de vraisemblance pour l'échantillon x (le vecteur Ÿ 
étant fixé) est égale à 


Un (X | Ÿ) = (2x 
X det bexp { — eg l(x—6"g)" b''(x—0"p)]}, (4.174) 


trB\-n/2 
] x 
n 
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d’où l’on tire l’estimation du maximum de vraisemblance du vecteur 
des paramètres du signal (voir tome II, problème 3.6) 


my = (pb p)"* (p'h7'x). (4.175) 
L'estimation (4.175) est sans biais et sa matrice de corrélation est 
mi {8 mv — 0)" (Ômv — 0)}= (php) 1 + . (4.176) 


L’estimation de Bayes du vecteur ®, pour une fonction de pertes 
quadratique, est comme on sait égale à (voir tome IT, page 122) 


ô— | ôw, (8) wa (x | 8) do/ | n(9)w,(x16)d8. (4.177) 
8 Ô 


Il est facile de voir que la fonction de vraisemblance w, (x | 6) 
peut s’écrire comme suit [17]: 


Un (x | 8) = exp { — 5? brtz} x 


x exp{— 55 (0 —Ômr) D(9—Ëmvr)}, (4.178) 

où 
Z=X—Qômy; (4.179) 
D = p'h"'+. (4.180) 


En substituant (4.178) dans (4.177) on obtient après des trans- 
formations évidentes 


À= | own (9) exp { — 5 (0 — Eur) D (9 — mr) }dd 
6 


X [\ Um (Ô) exp{— 550 —Omv) D (8 — mr) } a6 |” , 
6 


et après le changement de la variable d'intégration Ÿ — Ÿmy = uona 
Ÿ — Ov + | uÆm (Ÿmv + u) exp (— 5 EU Du) du x 
Ü 


1 


x [ Um (Ÿmy + u) exp ( — TE suDu)du| . (4.181) 


Nous nous limiterons à la classe de fonctions w,, admettant le 
développement suivant: 


Um (Ÿ my +u)=w» (Ümv) +u'Wh (0 my) + + u'Wu, (4.182) 
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où Wim (Ÿmv) est le vecteur colonne à éléments 
0 : 
30, Um (0) 195, j=1, ss M, 
et W une matrice m x*< m à Dan 


GE = Lm (8°), 


0*—A8—+(I1— A) Ümv 


ant une matrice diagonale à éléments À, tels que 0O<SA,<1, 
1, ..., m,et I la matrice unité. 

A l'aide de (4. 182) on peut montrer que le second terme du membre 
de droite de (4.181) converge en probabilité vers zéro lorsque nr — oo 
(ou lorsque le rapport signal/bruit v — oo). Par conséquent, l’esti- 


mation du maximum de vraisemblance 9, est une estimation asymp- 
totiquement optimale (pour ñ7 —+ œ) du paramètre vectoriel aléatoire 
du signal pour une fonction de pertes quadratique et pour toutes les 
fonctions w,, (@) satisfaisant à la condition (4.182). Vu les propriétés 
bien connues des estimations de Bayes (voir tome II, page 114) on 
peut généraliser le résultat ci-dessus à d’autres fonctions de pertes 
symétriques (voir [18]). 

Pour une réalisation continue de x (!) observée sur un intervalle 
fini (—T, T), l'estimation vectorielle du maximum de vraisemblan- 


Ce Êmny dans (4.181) doit être calculée par la formule suivante (com- 
parer avec (4.175), ainsi qu'avec 3.6.6 du tome II): 


À ét 
k = 


Ümv —=Sr'Xr, (4.183) 
où s- est une matrice à éléments 
T 
Sr, = | Vi(é)®,(é) de, (4.184) 
xr est le vecteur colonne à cas 
TT, = | Vi(t) x (t) dt (4.185) 
ST 


et V; (£) est solution de l'équation intégrale non homogène 
T 
| B(t,u)}Vi(u)du=qi(t), |t|<T. (4.186) 
2T 
4.5.4. Propriétés asymptotiques de la distribution a posteriori 


du paramètre vectoriel d'un signal. Considérons maintenant le cas 
général de l'estimation du paramètre vectoriel à m dimensions Ÿ 
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d’un signal, lorsque la distribution du bruit n'est pas obligatoire- 
ment normale. On sait que (voir tome II, chapitre 2), dans ce cas 
général, l’estimation du maximum de vraisemblance ÿn,, obtenue à 
partir d’un échantillon indépendant (x1, . .., x,) de la distribution 
w, (x | Ô), est également asymptotiquement normale, de vecteur des 
moyennes égal à ÔŸ et de matrice de corrélation égale à la matrice 
inverse de la matrice informationnelle de Fisher. La fonction de vrai- 
semblance de l’échantillon pour r —+ peut être approchée par la 
densité de probabilité normale multidimensionnelle suivante (voir 
[311, $ 12.7): 


L,(8) = (27) "*[det Q (Ÿmv)1!/" x 
*X exp [5 (8— 8m) Q(Èmv) (®—6mv)], (4.187) 


où Q (my) est une matrice à éléments 
n 
Ca e e 
Qiy = — 00:00; In [l D (Xe ; Ÿ) lo—6 (4.188) 
=! 


Pour n— œ la grandeur 7Q (Omy) converge en probabilité vers la 
matrice informationnelle de Fisher I (8), dont les éléments sont 


= mi 56; In w(x; 0) }. (4.189) 


Si la densité de probabilité a priori du paramètre ® est égale à 
Lm (®), en vertu de la formule de Bayes la densité de probabilité a 
posteriori du paramètre Ÿ, calculée d’après l'échantillon (x,, . - ., x:) 
de la distribution w (x; ®), est égale à 


: Ÿ um (0) L, (8) d® 
8 


Soit 8, la valeur réelle du paramètre inconnu © et supposons que 
Um (90) Æ 0 et que w,, (8) soit continue au voisinage de Ÿ — Ô4. 
Pour un échantillon de grande taille, les variations de la densité 
a priori du paramètre 8 au voisinage du point ôm, sont insigni- 
fiantes par rapport à la « pointe » de la fonction de vraisemblance 
Ly (0my). C'est pourquoi, en vertu de (4.190), la densité de probabili- 
té a posteriori du paramètre pour un échantillon de taille importante 
doit être assez bien approchée par la fonction de vraisemblance 
W (Ÿ| x) — L,; (9) ou (compte tenu de (4.187)) par la densité de la 
distribution multidimensionnelle normale de vecteur des moyennes 


égal à ômy et de matrice de corrélation 1-1 (ôn,)/n. 


W (@ | x") (4.190) 
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En introduisant la normalisation 


0 — (0 — ny) VA, (4.191) 
on obtient 
lim w(®|x?)= (2x) "" [det I (6,)] "exp [ 191 (%0) 8 | . (4.192) 


La formule (4.192) a été obtenue dans [17]. 

Ainsi, indépendamment de la forme de la distribution a priori 
du paramètre vectoriel du signal, sa distribution a posteriori, pour 
un échantillon de taille importante, est approximativement normale, 
de vecteur des moyennes égal au vecteur des estimations du maxi- 


mum de vraisemblance et de matrice de corrélation! (1/n) 1”! (Ony)- 


4.5.5. Propriétés asymptotiques des estimations de Bayes du para- 
mètre vectoriel d'un signal pour des classes larges des bruits et des 
fonctions de pertes. Comme on sait (voir tome [I, 2.4.5), le risque 
a posteriori lors de l'estimation d'un paramètre vectoriel est 


J (| 9= | I (ê — 6) W (6 | x) d8. (4.193) 
6 


L'estimation de Bayes 8* du paramètre 8 est donnée par la con- 
dition du minimum du risque conditionnel: 


J(ê*|x)=minJ (6 | x). 
ê 


Supposons que la fonction de pertes II (ÿ — 8) appartienne à la 
classe des fonctions symétriques non négatives telles que le minimum 
de l'intégrale 


| IT (u) exp se (u—2)"H (u—2)} du 

E,, L 
est obtenu pour À = 0 (E,, est ici l'espace euclidien à m dimensions, 
H une matrice définie positive de dimension m X m). Telle est la 
fonction quadratique de pertes par exemple (voir tome II, 2.4.5). 

Désignons par g (8, ©.) le membre de droite de l'égalité (4.192) 

et, tout en conservant la notation (4.191), introduisons encore la 
grandeur 


(Ÿ — Ÿmv) Vn=— ô,. (4.194) 
Pour la classe considérée des fonctions de pertes on a alors 
Pa (Ô», do) 7 | H (ô, — Ÿ) g (Ÿ, d) dû — 


En 


= | D(u)g(u—6, ; do) du> + (0; 80). (4.195) 


Em 
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Montrons que pour z — ona 


D, (8, x)= | (8, —8)8 6 1x) d8> 
Em 
> | 1(6)8(81x)48= 0, (0; x), (4.196) 
E 


m 


En (®1x)=W[(8— ôny) V rx]. (4.197) 
A partir de (4.195) et (4.196) on a 


2 | D, (6m, X)— Pn (On, do) 1 KZ Ÿ IL(Bx — 6) | ga (8 1 x) — 
En 
— 8 (9, 00) | dO—E; (x, 00), (4.198) 
D, (6,, x) > ®, (0, x) — e, (x, D). (4.199) 


Comme pour n — en vertu de (4.192) on a €, (x, ®,) — 0, ceci 
démontre l'inégalité (4.196). Cette inégalité signifie que pour nr — oo 
le risque a posteriori pour une estimation quelconque ne sera pas 
inférieur à celui obtenu pour l'estimation du maximum de vraisem- 
blance *). 

Ainsi, en utilisant l'estimation du maximum de vraisemblance 
qu’on peut trouver sans connaître à l’avance la fonction de pertes, 
ni la distribution des paramètres, on obtient pour un échantillon 
de taille suffisamment grande (temps d'observation) à peu près la 
même valeur du risque moyen que lorsque l’on utilise l’estimation 
de Bayes, pour une classe assez large de fonctions de pertes et des 
densités de probabilité a priori des paramètres. Cette propriété asym- 
ptotique des estimations de Bayes permet, dans de nombreux cas, de 
surmonter l’indétermination a priori, à condition d'utiliser pour le 
calcul des estimations des échantillons de tailles importantes. La 
densité a priori et la fonction de pertes inconnues peuvent étre données 
de sorte à simplifier les calculs (réalisation de l'algorithme d'esti- 
mation). Au contraire, si l’estimation du maximum de vraisemblance 
est relativement facile à trouver (sous forme explicite ou par des 
relations de récurrence) on peut en rester là et renoncer à l'estimation 
de Bayes. 


4.6. PROBLÈMES 


4.1. Soit X un vecteur aléatoire distribué suivant une loi nor- 
male à V dimensions, de vecteur des moyennes nul et de matrice de 
corrélation M. Montrer que la variable aléatoire X'M”!'X est répartie 
suivant la loi du y* à N degrés de liberte. 


*) Ilest facile de voir que la fonction ®, est un risque a posteriori exprimé 
à l’aide de variables normées. 


4.6] PROBLÈMES 255 


4.2. Soient deux échantillons vectoriels d'apprentissage clas- 


sifiés xt), RTE . EL. 5e ou de deux distributions norma- 


les à N dimensions de mêmes matrices de corrélation M et de vecteurs. 
des moyennes inconnus. On teste l'hypothèse sur l'égalité des valeurs. 
moyennes de ces distributions. Etudier l’algorithme 


ee (à, — a.) M'(&— 8) > 16 (N) a) 
en vertu duquel on rejette cette hypothèse. Dans la formule (1) 
LE 1: 
* 1 ‘1) + { (2) 
our 2) x!! à D. x; (2) 


et &« est la probabilité donnée de rejeter par erreur l'hypothèse lors- 
qu'elle est vraie. 

4.3. Soient deux classes caractérisées par des distributions norma- 
les unidimensionnelles de mêmes moyennes a inconnues et de varian- 
ces respectives of et 065 — À0% données. Etudier la règle de classifi- 
cation d’après l'observation X, basée sur le rapport de vraisemblance, 
où la moyenne inconnue est remplacée par l’estimation du maximum 
de vraisemblance obtenue à partir de l'échantillon commun, formé 


par deux échantillons d'apprentissage classifiés z\, don reel 
x), ..., x@). Vérifier que cette estimation du maximum de vrai- 


nblonce est 
à na; +(na/À) a, 


TE CS SL 
où 
a=+ Sa, = Va, (4) 
n) Ps — 
k=1] R=1 
et que 
0? 


Montrer de plus que ie: sans biais obtenue à partir 
de (3) en posant À — 1, bien qu'elle ne soit pas une estimation du 
maximum de vraisemblance, est asymptotiquement normale et asymp- 
totiquement efficace. 

4.4. Généraliser l'algorithme de classification (4.7) au cas de m 
classes S,, ..., S,, caractérisées par des distributions normales à 
N dimensions, ayant les mêmes matrices de corrélation M, — M 
et les vecteurs des moyennes a; différents, i == 1, ..., m. Dans le 
cas où a; et M sont inconnus, et que l’on dispose des échantillons 


d'apprentissage classifiée xf?, ..., ie i = 1, ..., m, étudier 
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l'algorithme de classification suivant : l’observation X se rapporte à 
la classe j si 


Pas (XLR) MG) Zen, k=1, ..., mi kæj, (6) 
où 


A 
pa | … 
= » x) k—1, sr M; (7) 
i=1{ 
m m M; 
Mi=(S mm). DS (x — a) (xÉ— a)". (8) 


i=1 i=1hk=! 
Justifier le choix des seuils c;;. 
4.5. [29]. Analyser l'exemple de 4.3.6 en se donnant la distri- 
bution 
wi(d)=ae st, a>0, 820, (9) 
et en substituant au lieu de @ l'estimation & du maximum de vrai- 
semblance obtenue à partir de l'échantillon d'apprentissage x;, . .. 
ist 
On conseille de procéder à l’analyse en quatre étapes: 
1) montrer que 


A(z, a)=a{[80(1+ax)—(z+1)J/(1 + a)", (10) 


2) trouver l'expression de la fonction de vraisemblance 


Pts En) = —— “© ——— , (11) 
1+ S x [] zk | 
Q@+n) #1 si 


3) trouver l'estimation du maximum de vraisemblance du para- 
mètre «: 


rs (12) 


Air, &) = 09 — "= —(r+1) (13) 


LU 


et analyser l'algorithme correspondant. 


CHAPITRE 5 


PRINCIPES DE SIMILITUDE 
ET D’INVARIANCE DANS 
LA SYNTHÈSE STATISTIQUE 


5.1. PRINCIPES DE SIMILITUDE ET D'INVARIANCE 


9.1.1. Rôle des principes de similitude et d'invariance dans la 
théorie de la détection des signaux. Jetons un coup d'œil rétrospectif 
sur le contenu des chapitres précédents. Dans le chapitre 2 nous avons 
étudié les méthodes non paramétriques de synthèse des algorithmes 
de détection des signaux noyés dans des bruits. La limitation essen- 
tielle imposée aux éléments d'échantillons était qu'ils soient indé- 
pendants. Lorsque les observations sont corrélées les propriétés non 
paramétriques des algorithmes disparaissent. Les algorithmes asymp- 
totiquement optimaux de détection examinés au chapitre 3, bien 
qu'applicables dans le cas de bruits corrélés, ne sont suffisamment 
efficaces que lorsque l'intervalle de temps d'observation est assez 
grand, de plus on voit apparaître ici des difficultés d'étude analyti- 
que de la vitesse de leur convergence vers l’algorithme optimal. Tous 
les algorithmes adaptatifs évoqués au chapitre 4 exigent un appren- 
tissage, donc un temps supplémentaire. 

Il existe des principes de statistique mathématique permettant de 
réaliser la synthèse des algorithmes de détection des signaux noyés 
dans des bruits corrélés sans apprentissage, algorithmes qui soient 
optimaux et stables non pas asymptotiquement, mais pour un temps 
d'observation fini (échantillon de taille finie). Ce sont les principes 
d’invariance et de similitude mentionnés au chapitre 1 (voir 1.2.3). 
Cependant l'utilisation de ces principes est également soumise à 
certaines restrictions. Tout d'abord ils sont applicables dans les 
conditions d'indétermination a priori paramétrique. Puis, le prin- 
cipe de similitude n’est efficace qu'avec la classe des distributions 
exponentielles des statistiques suffisantes. Cependant, même sous les 
restrictions mentionnées, le recours à des principes de similitude et 
d’invariance peut être utile dans nombre de problèmes importants 
de la radiodétection et des télécommunications. Nous allons envisa- 
cer l'application de ces principes à la synthèse des algorithmes de dé- 
tection des signaux noyés dans des bruits normaux à paramètres 
(perturbateurs) inconnus. Dans certains cas les paramètres perturba- 
teurs seront les puissances inconnues des bruits, et dans d’autres les 


17-0165 
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paramètres des spectres énergétiques des bruits. Préalablement nous 
allons donner (sans démonstration) certains résultats indispensables 
de la théorie de la similitude et de l’invariance. 


5.1.2. Famille complète des densités de probabilité. Considérons 
une famille uniparamétrique de densités de probabilité w, (x | Ô), 
Ÿ € 6. Cette famille est dite complète si pour tous les Ÿ € © l’équa- 
tion intégrale par rapport à f (x) 


D 


mf(}= | (ju (z 10) dr =0 (5.1) 


— œ 


a pour solution unique j (x) = Ü. Autrement dit, pour une famille 
complète w, (r | à), Ÿ € 6, aucune fonction ÿ (x) non identiquement 
nulle ne peut être orthogonale à toutes les fonctions de cette famille. 

A titre d'exemple d’une famille complète on peut citer la famille 
des densités de probabilité exponentielles (pour Ÿ quelconque réel) 


w\ (x | 9) = exp [0x + C (x) + D (B)], —o0 L r Lo, (5.2) 


où D (Ô) est donné par les conditions de normalisation. En substi- 
tuant (5.2) dans (5.1), on trouve que pour tous les Ÿ appartenant à 
un certain intervalle on a 


oO 


| {f(z) exp [C(x)}}e°* dr = 0, 


—œ 


p'où l'on tire f(r)exp [C (rx)]=0 et f(x) =0 car la transformation 
de Fourier est unique, donc à l’image nulle ne peut correspondre 
qu’une fonction de départ nulle. 

La famille de densités de probabilité normales w, (x | 0) — 
= (2rx0*)-!/2e-&-0)%/20?) Dour une variance donnée 60° = 1 est un 


cas particulier de la famille (5.2) pour C (x) = In | = | 
A1 
D (8) = —6"/2. 
Notons cependant que pour une valeur moyenne fixée (par exem- 


ple 8 — 0) la famille de densités normales w, (x | 0°) n’est pas com- 
plète car 


| f(x) e-*/209) dr —0, 


— © 


pour toute fonction f (x) impaire non identiquement nulle. 

Soit x = (z,, - -., x.) un échantillon de la distribution w, (x | Ÿ) 
et soit { (x), t € T, une statistique suffisante pour le paramètre Ÿ 
de cette distribution. Désignons par W, (t | à) la densité de proba- 
bilité de la statistique suffisante. Si la famille W, (t | 8) est comple- 
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te, la statistique suffisante t (x) est dite complète, c’est-à-dire que 
la statistique est complète si telle est la famille des distributions à 
laquelle elle appartient. Supposons, par exemple, que l'échantillon 
indépendant x appartienne à une distribution normale de moyenne 
nulle. I] est facile de voir que la statistique suffisante pour l'esti- 


Ji 


mation de la variance 0° est dans ce cas la grandeur t (x) = Y ri 


1= 1 
répartie suivant la loi du 4° à n degrés de liberté (voir tome II, page 49) 


Wt&1o=[20r (+) 17" (2) eerceon, 1>0. (5.3) 


La famille de fonctions (5.3) est complète car l’équation intégrale 


f (49 le-t/(20) ge = 0 
0 


a une solution unique f (t) — O pour tous les 6° >> 0. Par consé- 
LL 


quent la statistique suffisante t (x) — Ÿ, x? est dans le cas envisagé 
i=1 


complète. 

Considérons une fonction œ (8) du paramètre de la famille ini- 
tiale w, (x | Ÿ) et supposons que pour estimer la fonction œ (Ÿ) soit 
utilisée une fonction de la statistique suffisante © [t (x)]. En met- 
tant à profit le fait que cette estimation doit être sans biais. on ob- 
tient l'équation 


| D) Wi(t10) dt = (8). (5.4) 
T 


Si ®, (t) et ®, (t) sont deux solutions de cette équation, la dif- 
férence f (t) = ®, (t) — D, (t) doit satisfaire à l'équation 


| 14) Wi(t18)dt=0. 


T 


Pour la statistique ® (t), dont on sait qu'elle est complète, on 
a f(t) = D, (t) — D, (t) = 0, c'est-à-dire que si la statistique est 
complète, l'estimation non biaisée est obligatoirement unique. 

Les résultats obtenus peuvent être généralisés au cas d’une famil- 
le multiparamétrique de distributions multidimensionnelles & ;. (x | Ô} 
lorsque la variable t (x) et le paramètre ® sont des vecteurs. Par exem- 
ple, est complète la famille exponentielle de distributions simulta- 
nées des statistiques suffisantes 


W(t1)=C(8)exp[@"t(x)}] =C (ô) exp [> Oti(x)l. (5.5) 


17% 
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9.1.3. Algorithmes semblables de Neyman. Revenons au problème 
statistique de la détection d’un signal de la forme Às (4, 0), 0€ 6,, 
noyé dans un bruit dont la distribution dépend du vecteur des para- 
mètres perturbateurs 6 € 8, On vérifie l'hypothèse composée 
H: k=0, 6€86,, contre l'alternative composée Æ: 40, 8€6., 
686€ 6;:. Pour l'hypothèse H la distribution des observations dépend 
des paramètres perturbateurs et ne dépend pas des paramètres infor- 
mationnels (paramètres du signal). Comme nous l’avons noté dans 
1.2.3, on peut essayer de trouver la classe de règles (algorithmes) 
semblables de vérification des hypothèses (détection d’un signal) 
qui présentent cette particularité que la probabilité de fausse alarme 
ne dépend pas des paramètres perturbateurs et conserve une valeur 
constante & pour toutes les distributions appartenant à la famille 
paramétrique des distributions du bruit w,(x | 8), 8 € 6,. 

Supposons maintenant que le vecteur des statistiques suffisantes 
t (x) pour les paramètres gênants 8 existe. Alors tout algorithme de 
détection utilisant la fonction de décision ® (x) (voir (1.7)) pour 
laquelle, selon l’hypothèse 7, la moyenne conditionnelle pour une 
valeur donnée t de la statistique suffisante est égale à une valeur 
donnée « de la probabilité de fausse alarme, sera semblable. En effet, 
à partir de la condition 


m {D (x)|Æ4,t} = a, (5.6) 


en vertu de la propriété bien connue de la moyenne conditionnelle 
(voir tome I, page 7S), on a 


ma {® (x) | H} = m, {m, {O (x) | H, 4} = a. (5.6) 


Les algorithmes satisfaisant à la condition (5.6) sont appelés 
algorithmes de Neyman pour la statistique t (x). La condition néces- 
saire et suffisante pour que les algorithmes semblables aient une 
structure de Neyman par rapport à la statistique suffisante t (x) est 
que la famille de distributions W (t | 8) soit complète (voir [11]). 


9.1.4. Algorithmes optimaux de Neyman. L'importance des 
algorithmes de Neyman réside dans le fait que la recherche, dans la 
classe de ces algorithmes, lorsque les paramètres du bruit sont incon- 
nus, de l'algorithme optimal minimisant la probabilité de perte du 
signal pour une probabilité donnée de fausse alarme devient plus 
facile. Ceci est dû au fait que le problème formulé ci-dessus de vérifica- 
tion d'une hypothèse composée contre une alternative composée 
se réduit à la vérification d’une hypothèse simple contre une alter- 
native composée (et parfois simple). En effet, les algorithmes de la 
structure de Neyman possèdent cette propriété que la probabilite de 
fausse alarme conserve une valeur constante &« sur chacune des sur- 
faces t (x) — t. Aussi, peut-on considérer comme constante la sta- 
tistique t (x), suffisante pour les paramètres perturbateurs, par con- 
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Séquent la fonction de vraisemblance n’en dépend plus et l’hypothèse 
composée À se ramène à une hypothèse simple 77,. Si de plus la sta- 
tistique t (x) est une statistique suffisante des paramètres perlurba- 
teurs pour l'alternative également, l'alternative composée pour t 
constant devient une alternative simple (dans ce cas ni la probabilité 
de fausse alarme, ni la probabilité de perte du signal ne dépendent 
des paramètres perturbateurs du bruit). 

Lors de la vérification d'une hypothèse simple contre une alter- 
native simple la règle optimale impose, comme on sait, de comparer 
à un seuil le rapport de vraisemblance. Lorsque l’alternative est 
composée, on recherche la règle uniformément la plus puissante, ou 
la règle non biaisée uniformément la plus puissante (voir tome I, 
1.4.4). 

Soient L (x) une statistique suffisante pour le paramètre infcr- 
mationnel Ÿ, et t (x) une statistique vectorielle suffisante pour les 
paramètres perturbateurs 8 = (8,, . ... 0,,), et supposons que le 
rapport de vraisemblance dans le problème formulé ci-dessus de la 
détection d'un signal s’écrive comme suit : 


L(u,t)=C(, 8) exp [ôu + : Oit:]. (5.7) 


Le rapport de vraisemblance conditionnel pour t fixé ne dépend 
que de la variable u. Il est montré dans [11] que dans ce cas la règle 
non biaisée uniformément la plus puissante de vérification de l’hypo- 
thèse FH : Ÿ — Ÿ, contre l’alternative X : Ô >> Ô, revient à la compa- 
raison à un seuil de la statistique suffisante U (x), le seuil C (t) étant 
donné par l’équation (voir (5.6)) 


m {D(U,t)lt, H}= a@ (5.8) 


pour tous les t. 

Cependant, il est parfois difficile d'utiliser l’équation (5.8) pour 
trouver le seuil. La solution se simplifie notablement s’il existe une 
statistique V = hk (U, t) ne dépendant pas de t pour l'hypothèse H 
et qui, pour chaque t fixé, est manolcne par rapport à U. Dans ce 
cas la fonction de décisicn uniformément la plus puissante sera 


> 
o(=| 1, V2>C, 


0, V<C. (2.9) 


le seuil C étant déterminé d'après la probabilité donnée « d’erreurs 
de première espèce par la relation 


ma {D (V) | H} = a. (5.9°) 


Il se peut qu'aucune fonction randomisée du type (5.9) ne vérifie 
Ja condition (5.8),” pourtant cette condition est satisfaite par une 
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fonction randomisée 
1,V>C, 
®D(V)=4 v, V=C, (5.9) 
0, F<C, 


où les deux constantes, C et y, se trouvent à partir de l’équation (5.8). 


9.1.5. Règles invariantes de choix d’une décision lors de la véri- 
fication des hypothèses. Dans certains cas, pour trouver une règle 
optimale de choix d’une décision lors de la vérification d’une hypo- 
thèse composée contre une alternative composée, on peut utiliser le 
principe de l’invariance par rapport à un certain groupe de trans- 
formations (voir 1.2.3). 

Soit G un groupe de transformations qui sont des applications 
biunivoques de l’espace échantillonné X sur lui-même. La famille 
paramétrique de distributions W (x | #), 8 € 6, est dite invariante 
par rapport au groupe G, si à chaque application g € G correspond 
une application biunivoque g € G de l’ensemble 6 sur lui-même. 
Ainsi, si W (x | Ÿ) est la distribution de la variable aléatoire x, 
alors W [y |g (Ÿ)] est la distribution de la variable aléatoire y — 
— g(x). On dit que le problème de la vérification de l'hypothèse 
H: 0€, contre l'alternative Æ : 8€ 6; reste invariant par rapport 


à la transformation g, si la transformation g qui lui correspond con- 
serve les espaces 6, et 6, c'est-à-dire 


801 = On, £0x = 0x. (5.10) 


La règle de choix d’une décision, lors de la vérification de l’hypo- 
thèse Æ contre l'alternative X, est dite invariante par rapport au 


groupe G si la fonction de décision ® (x) pour tous lesx € XetgEG 
satisfait à la relation 


® (ex) = D (x). (5.11) 


Üne fonction M (x), xE X, est appelée invariant maximal par 
rapport au groupe de transformations G si elle est invariante par 
rapport à ce groupe, c'est-à-dire si M [g (x)] = M (x) pour tous les 
xEX et gEG,et si M (x,) = M (x) entraîne x, = g (x,) pour un 
certain g € G. L'importance de la notion introduite devient éviden- 
te à partir des considérations suivantes (voir [11]): la condition 
nécessaire et suffisante d’invariance d’une règle de choix d'une dé- 
cision par rapport au groupe de transformations G consiste en ce que 
la fonction de décision ® (x) correspondant à cette règle ne dépende 
de x que par l'intermédiaire de l’invariant maximal M (x) par rap- 
port à la transformation mentionnée, c'est-à-dire que 


D (x) = Y [M (x)l. (5.12) 
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Ainsi, la classe des fonctions de décision invariantes peut être 
obtenue comme un ensemble de fonctions de l'invariant maximal. 

De plus, il y a lieu de noter que l’invariance permet non seule- 
ment de réduire la dimension des données traitées, ceci en passant 
de l’espace des échantillons à l’invariant maximal, mais également 
de diminuer la dimension de l’espace paramétrique. L’affirmation 
correspondante se formule comme suit: si M(x) est invariante par 
rapport au groupe de transformations G et que v(Ÿ) soit l’invariant 
maximal par rapport au groupe G (voir (5.10)), la distribution M(x) 
ne dépend que de v(). 

Pour une telle réduction des données le problème initial se réduit 
à la vérification d’une hypothèse simple, contre une alternative com- 
posée (et dans certains cas également simple). Si de plus la famille de 
densités de probabilité W [M (x) | v (8)] a un rapport de vraisem- 
blance monotone, la règle invariante uniformément la plus puissante 
de choix d’une décision est basée sur la comparaison à un seuil de la 
statistique M (x). 


5.2. DÉTECTION D'UN SIGNAL NOYÉ DANS UN BRUIT 
NORMAL ADDITIF DE PUISSANCE INCONNUE 


9.2.1. Statistiques suffisantes dans le problème de la détection 
d’un signal déterministe. Nous allons envisager le problème de la 
détection d'un signal déterministe us (£?), u >> 0, noyé dans un bruit 
normal additif & (t) de valeur moyenne nulle et de fonction de corré- 
lation o°R (t, y), la fonction R (t, y) étant donnée et la grandeur 0° 
inconnue. Pour un bruit stationnaire la grandeur 0° est la variance 
ou la puissance moyenne. 

En termes de la théorie de la vérification des hypothèses, le problè- 
me se formule comme suit : vérifier l'hypothèse composée H : u = 0, 
6° > 0, contre l'alternative composée À: u >0, o > 0. Ici pu 
est un paramètre informatif et o° un paramètre perturbateur. À par- 
tir de la réalisation zx (t) observée sur l'intervalle (—T, T), il y a 
lieu de choisir l’une des deux décisions : 


Yu : TZ) EE (t) (l'hypothèse A est vraie), 
Yx : tr) Eus(t) + E(!), u > 0 (l'alternative X est vraie). 


Notons que dans le problème formulé on est dans l'incertitude 
tant par rapport à l’amplitude u du signal (paramètre informatif), 
que par rapport à la variance du bruit o* (paramètre perturbateur). 

La règle optimale de choix d’une décision pour o* donnée a été 
étudiée dans le tome II. Lorsque 0° est inconnue, il n'existe pas de 
règle uniformément la plus puissante, et on peut essayer de trouver 
une règle optimale dans la classe de règles soumises à des restrictions 
qui ont été énumérées dans 5.1. 
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Nous allons avant tout passer de la réalisation continue zx (t), 
observée sur l'intervalle (—-T, T}), aux coordonnées x,, k4 = 1, ... 

, NV, indépendantes normalement réparties, obtenues par le déve- 
loppement orthogonal du processus aléatoire normal (voir tome Il, 
5.2) 


zx = VA l x (#) qu (£) dt, (5.13) 


où Àx et x ({) sont les valeurs propres et les fonctions propres de 
l'équation intégrale 
T 
pU)=A | R(,DoWd, |11<T- (5.13) 
2T 
Il est évident que m, {x,} = 0 pour |’ du taie H tandis que 
pour l’alternative XÀ m, {x} = us,, > 0, o 
T 
= Va | s (4) qu (4) dt. (5.14) 


-T 


La variance de x, est égale à 0° tant pour l’hypothèse que pour 
l'alternative. Pour ne pas perdre une partie importante de l'infor- 
mation utile, lorsque l’on remplace la réalisation zx ({) par un échan- 
tillon fini x — (x;, ..., x), il faut que soit suffisamment grand. 

La distribution conjointe des variables aléatoires normales indé- 
pendantes z,, # = 1, ..., N, pour u >0 est donnée par la famille 
biparamétrique suivante : 


W (x Ip, 02)= (2102) VE exp { Sr psx)2}. (5.15) 
h— 1 


En introdisant les désignations 


— u/0°, 9, = 1/(20°), (5.16) 
U (x) = ThSh» (5.17) 
N 
t (x) 2 zà, (5.18) 
N 
C(d: 82) = (02/7) exp | — En a), (5.19) 


h=1 
on peut écrire (5.15) sous la forme 


Wa (1, 09 = € (Bu 09 exp LOU 6) — 04 
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En vertu de (5.20) les statistiques U (x) et ? (x) sont suffisantes 
pour les paramètres Ÿ,, d:. Le problème formulé ci-dessus de véri- 
fication des hypothèses équivaut à celui de la vérification de l'hypo- 
thèse composée FH : 8, = 0,0, > 0, contre l'alternative composée 
K:0, > 0,0, > 0. Maintenant c'est le paramètre Ÿ, qui est infor- 
matif, et le paramètre Ÿ, perturbateur. 


9.2.2. Règle sans biais uniformément la plus puissante de détec- 
tion d’un signal déterministe. À partir de (5.20) on obtient l'expres- 
sion du logarithme du rapport de vraisemblance 

N 
; _ Wy(xiu. 0°) : LA 2 É 
InZ(x | V1, d)= nr on — VU 36, 2 Sh. (5.21) 
Ée 

La formule (5.21) montre que le rapport de vraisemblance dans 
le problème envisagé de détection d’un signal est une fonction mono- 
tone de la statistique suffisante U (x) du type (5.7). C’est pourquoi, 
comme nous l’avons mentionné dans 5.1.4, la règle sans biais unifor- 
mément la plus puissante de choix d’une décision impose la compa- 


raison de Ü (x) à un seuil dépendant de t (x), à savoir on prend la 
décision y sur la présence du signal si 


N 
1! ThSR >C [é (x)}, (5.22) 
l 


R— 


et la décision y,, que le signal est absent, si c’est l'inégalité inverse 
de (5.22) qui est vérifiée. 

La recherche de la fonction de seuil C [t (x)] est un problème plus 
compliqué. À cet effet, on peut se donner t et exiger que le plan 


N 
D ThSh — C 
R=1 


divise la sphère ? (x) = t en deux parties et que la surface de la par- 
N 


tie où > rs, > C soit égale au produit de la surface de toute la sphère 


=1 
par la probabilité donnée de fausse alarme. 
On peut résoudre ce problème en utilisant l’invariance de la règle 
par rapport à un certain groupe de transformations (ce qui sera montré 
dans 5.2.4). 


9.2.3. Détection d’un signal constant. Commençons par le pro- 
blème le plus simple de la détection d’un signal constant (s (t) = 1} 
noyé dans un bruit additif normal de valeur moyenne nulle et de 
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variance inconnue. Dans ce cas la règle (5.22) s'écrit comme suit: 


N 
U(R)=7 D a >C IH (XI, (5.23) 


k=1 


où la statistique £ (x) est donnée par (5.18). 

La règle (5.23) de choix d’une décision peut s’écrire sous une 
forme plus simple en tenant compte des considérations exposées à 
la fin du p. 5.1.4. Introduisons la statistique 


v (x) = L© VNAN—TD _ UV NAN—N 
| VER) —AU? (x) ÉD 
V D [zr —U (IS 

R=1 


Pour l'hypothèse Æ : u = 0 (il n’y a pas de signal) cette statisti- 
N 

que ne dépend pas de t (x) — © x? (voir [11], page 221) et pour cha- 
i=1 


1— 
que t fixé est monotone par rapport à U’. En vertu de (5.9), la règle 
sans biais uniformément la plus puissante se formule comme suit: 
le signal est présent si 


(5.24) 


VH@>C, (5.25) 


et l'on prend la décision qu'il n’y a pas de signal dans le cas contraire. 
Pour l'hypothèse Æ la statistique V (x) est le rapport de 
deux variables aléatoires indépendantes: de la variable normale 


{1/V N) © xx/0 de moyenne nulle et de variance unité par la racine 
i=1 


N N 
carrée de la variable aléatoire [(V — 1) lt 2 (z, _— F2 z,)° ré- 
= 1—= 


partie suivant la loi du y* à N — 1 degrés de liberté, divisée par 
N — 1. Donc la statistique V (x) est répartie suivant la loi type de 
Student et par conséquent le seuil C dans (5.25) pour une valeur « 
donnée de fausse alarme est égal à l'a-quantile £, de la distribution de 
Student. 

Ainsi, l'inégalité (5.25) peut s’écrire comme suit (comparer avec 
(1.161) du tome Il) 


N N 
Dnz(s Sn Da) } Tee. (6.26) 
- = 


La probabilité de perte du signal s'écrit sous la forme (voir tome II, 
(1.162)) 


lœ 


p= | Sx (7; Ôx) dy, . (5.27) 
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où Sx (y, Ô x») est la densité de probabilité de la distribution de Stu- 
dent non centrée de paramètre d'écart égal à 


= VA. (5.27') 


9.2.4. Utilisation du principe d’invariance. Revenons au pro- 
blème général de la détection d’un signal déterministe noyé dans un 
bruit additif normal de puissance moyenne inconnue. Pour tourner les 
difficultés liées au calcul de la fonction de seuil dans l'algorithme 
(5.22), essayons de voir s’il y a un groupe de transformations par 
rapport auquel, dans le cas envisagé, il existe une règle invariante de 
choix d'une décision. 

Introduisons préalablement une nouvelle normalisation du signal 

N 


de telle sorte que Ÿs$ — 1. Au lieu de l'amplitude p nous allons 
= 


considérer l'amplitude nu}, dépendant du nombre de coordonnées 
envisagées. Nous pouvons poser à cet effet 


N 


ui = n° 2 sh - (5.28) 
Ainsi normée (voir (5.17)), la statistique 
1 1 : 
U, (x) = Re (x) = ri > TRSR (5.29) 
k=1 


est répartie suivant une loi normale de paramètres (u,/0, 1), et la 
statistique (voir (5.18)) 


Ua(x)=— Go =0r@= [3 ci — | 5 ask)" ‘]= 


h=1 


N N 
= + > (op) — + > ZhSk— by) (5.29°) 
k=1 R=1 


suivant la loi du 4° à N — 1 degrés de liberté. Les statistiques U, (x) 
et U, (x) étant indépendantes, leur densité de probabilité simultanée 
est égale au produit des densités de probabilité de chacune des sta- 
tistiques, soit 


W, (us, u2) = (1/V 2x) exp | —(u: —ux/0)2/2] x 
x uN— 32, -u,/2 [2er (—— N — 4 =)|" 


— 00 LU, oo, 0Lus< oo. (5.30) 
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En utilisant (5.29), (5.30) on obtient la loi simultanée des statisti- 
ques liées U (x) et t (x): 


Wa(U, 118 8)=171[ 232070" ques Fa 


x (20) 0802 00 (9 DJN I exp (OU — Bt), (5.31) 


où 
Ÿ, — u y/0°, Ÿ — 1/(20°), (5.31”}) 
et le jacobien J de la transformation est 
J= Ut) _ OM due 4/58, (5.317) 


Introduisons les désignations : 
C(Ÿ:, 02) — [ Van 2 7 (=)]" (20,)/*e-05%0, (5.32) 
R(U,t)=(t—U2)N 3, (5.32) 


nous pouvons maintenant écrire (5.31) comme suit: 
W'(u, 1 | 8,, de) = C (Ÿ,, 0) À (U, t) exp (8,U — 6.0), 
—o00 LU Lo, 0 LIL oo. (5.33) 
Introduisons le groupe de transformations 
g(U, t) = (aU, at), a > 0. (5.34) 


Toute transformation de ce groupe est une multiplication de la 
réalisation observée par une certaine constante a. Montrons que le 
problème envisagé de la détection est invariant par rapport au groupe 
de transformations (5.34). On tire de (5.33) 


Wig(u, t}]=C[Ig (0: d)lA(u,t)exp[adU—a28:t), (5.35) 

où 
g (9, 9) = (ab, a20.), a >0. (5.36) 
Comme dans notre problème 6 ; = (9, — 0, 8, > 0), 84; = (6, > 
> 0, Ÿ, > 0), il est évident que la transformation (5.36) satisfait à 


la relation (5.10), ce qui démontre l’invariance. 
Montrons maintenant que la statistique 


M (x) =U (x) {14 (x) —U2 (MN —1)} (5.37) 


est l’invariant maximal par rapport au groupe de transformations 
(5.34). L’invariance de cette statistique est évidente car M (ax) — 
— M (x) == M{U (x), t (x)l. D'autre part 


M [U (x), t (x) = MIU (x), t (x2)] 
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entraine 
U (x) = aU (x), t (x) = at (x2), a > 0 
et 
X1 — OX», à > 0. 


L'invariant maximal pour le groupe g (Ÿ,, Ÿ.) est la grandeur 
uy/0. L'invariant maximal (5.37) est réparti suivant la loi de Stu- 
dent non centrée sx, Ôx) de paramètre d'écart Ô y; = uX/06. 
Mais comme le rapport de vraisemblance 


L (M) = sy (M, ôx)/sx (M, 0) (5.38) 


est une fonction monotone de M (voir [11], page 303), pour le problè- 
me envisagé de la détection d’un signal déterministe on a la règle 


x(t) 


Fig. 5.1. Schéma fonctionnel du détecteur invariant d'un signal noyé dans un 
bruit additif normal de variance inconnue. 


suivante uniformément la plus puissante de choix d’une décision: le 
signal est présent si 


M(x)=U (x){#(S)—U2 (AN —1)} te, (5.39) 


où t, est l’a-quantile de la loi (centrale) de Student. 


9.2.5. Structure et caractéristique de fonctionnement du détec- 
teur d’un signal déterministe. Ecrivons l'inégalité (5.39) comme suit: 
N N N 
à ThSh Zla (ox Th aa znsn) V(N —1)}". (5.40) 
= = = 
Le schéma fonctionnel du détecteur corréspondant à l’algorithme 
(5.40) est donné sur la figure 5.1. 
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Le membre de gauche de l'inégalité (5.40) est la somme pondérée 
des coordonnées observées du processus. Pour une variance donnée 
d’un bruit normal additif, l’algorithme optimal de détection d’un 
signal déterministe prescrit la comparaison de cette somme à un 
seuil constant dépendant d'une probabilité donnée de fausse alarme 
(voir tome II, (5.6)). Lorsqu'on ne connaît pas la variance, la somme 
pondérée est comparée au seuil 


N N 
C(x)=ta | pi ri — (2 task) IN —1)}""* (5.40') 


qui est le produit de l’a-quantile de la distribution de Student par 
l'estimation sans biais de la variance, calculée d’après l’échantillon 
observé. Ainsi le détecteur donné sur la figure 5.1 peut être inter- 
prété comme un dispositif adaptatif utilisant l'algorithme optimal 
de détection d’un signal pour une variance connue du bruit, où 


1-8 


0,05 


1 2 3 4 5 x/6 


Fig. 5.2. Caractéristiques de fonctionnement du détecteur représenté sur la 
figure 5.1. 


l’on a remplacé la variance par son estimation sans biais calculée 

d’après un connon non classifié. Lorsque V — co, l'estimation 
N 

6? — [2 x, — ù ZnSrk)*W(N — 1) converge en probabilité vers 0° 


tant DOUÉ l'hypothèse que pour l'alternative, et à partir de (5.40) 
on obtient l’algorithme optimal de détection ‘d'un signal noyé dans 
un bruit additif normal de variance connue. 

La figure 5.2 reproduit les caractéristiques de fonctionnement, 
empruntées à [19], du détecteur représenté sur la figure 5.1. Ces carac- 
téristiques donnent la probabilité de détection correcte en fonction 
du rapport /0 signal/bruit. Les courbes sont construites pour une 
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probabilité donnée de fausse alarme & — 0,05 pour trois valeurs de 
N = 2, 6, 21. La courbe supérieure (W — ) correspond à l'algo- 
rithme optimal pour une variance donnée du bruit. 

La caractéristique de fonctionnement du détecteur ne dépendant 
que du rapport u/0, on pourrait formuler le problème traité comme 
un problème de détection d’un signal déterministe noyé dans un 
bruit normal additif pour un rapport signal/bruit inconnu. 


9.2.6. Détection d’un signal à bande étroite noyé dans un bruit 
normal additif de puissance inconnue. Considérons maintenant le 
problème de la détection d’un signal à bande étroite 


us (£, po) — pa (t) cos [oot — 4 () + Pol, > 0, [pol < 7; 
(5.41} 


modulé en amplitude et en phase selon les lois a (t) et W, (t) respec- 
tivement, d'amplitude pu et de phase initiale q, inconnues, noyé dans 
un bruit normal additif E ({) de valeur moyenne nulle, de fonction 
de corrélation normée donnée R (t, y) et de variance inconnue 0*. 
Dans ce problème le paramètre informatif est l’amplitude du signal 
u, et les paramètres perturbateurs sont la phase du signal œ, et la 
variance du bruit 0*. 

En termes de la théorie de la vérification des hypothèses, le 
problème se formule comme suit: vérifier l'hypothèse composée 
H:u=0,|@1<r, 6° > 0 contre l'alternative composée X : u>0, 
[pol 7, 6° > 0. L'observation de la réalisation zx (t) sur l'inter- 
valle (—T, T) doit permettre de choisir l’une des décisions: 
vuiz() = E() où vx: 2 (0) = ps (t) + E (0). 

Représentons sous forme complexe la réalisation d’un processus 
aléatoire à bande étroite : 


xz(t)=Rez(t) ect, (5.42) 
où z (t) est l'enveloppe complexe, de plus 
z(t) = A(t)+icC (t), (5.42") 


où À (t), C (t) sont les composantes en quadrature du processus aléa- 
toire à bande étroite. La fonction du signal s(t, ®,) s'écrit également 
à l’aide d'une enveloppe complexe, soit 


S(t, Po) = Re 2, (t) etoet eine, (5.43) 
Pour un bruit additif normal, la réalisation x (t) sur l'intervalle 


d'observation (—T, T') peut être décrite par un ensemble de coor- 
données normalement réparties de l'enveloppe complexe (voir 
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tome II, 5.5.2) 
T 
a = VA | 2(#)qx (dt, (5.44) 
2T 


Où Àz, Pr (t) sont les valeurs propres (À; >> 0) et les fonctions propres 
de l’équation intégrale 


T 
pU)=Aà | R.(4, u)q(u) du, (5.44") 
=T 


avec 
OR. (t,u)=+ m{z(t)2{u)}, (5.44) 


où z (t) est l'enveloppe complexe du bruit normal de valeur moyenne 
nulle. 

Si x, et y, sont les parties réelle et imaginaire de la coordonnée 
z,, l'ensemble (x, y) = (x;, y, .- .., zx, y) est un ensemble de 
variables aléatoires normales indépendantes; par ailleurs, pour l’hy- 
pothese A on a 


Mi {tr} = Mi{yr} = 0, k—=1,2,..., (5.45) 


et pour l'alternative A 


M {xx} = Lu (ax cos Po — bx Sin Vo), (5.46) 

M {Yn} = H (ax Sin Po + 0x COS Fo); (5.46”) 
“à 

ant ibr= Va | 23 (4) qù (6) dt. (5.46") 
—T 


La variance de chacune des variables aléatoires x,, yr, k = 1, 
2, ..., est égale à 0°. 

La distribution simultanée des vecteurs aléatoires normaux x, 
y est donnée par la famille triparamétrique de densités de probabilité 
suivante : 


Wox (x, SI Po, 0?) = 


N 
—N 1 . 
— (2r02) N eXpP { TT JE >. [Tr — LU (az COS Po — Ur sin Po)}? + 
R=1 


+ [ya — ui (ax sin Po+ ba cos po)l2}. (5.47) 
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En introduisant les désignations 
Ÿ, = u cos py/0*, 0, — up sin py/0", 3 — 1/(20*), (5.48) 


N N 
U, (x, y) 2 (Tax + Ynbx), U2(x, y) 2 (Yrax — nr), (5.49) 


à 
t(x, }) 2 (zh + y), (5.50) 


C(Ÿ1, 8, 8)= (5) exp > S (ai +}, (5.51) 
2 


on peut écrire (5.47) comme suit 
Wen (K YIU Go; 6°) = 
= C (Ü:, LPS Ÿ 3) EXP {iU; (x, y) T AU (x, y) ne ET (x; y)}- 


(5.52) 
Notre problème de vérification des hypothèses est équivalent au 
problème de la vérification de l'hypothèse composée H: | 8 | = 0, 


Ÿ: >> 0 contre l'alternative composée Æ: | 8 | Æ 0, D, > 0, où le 
vecteur Ÿ — (ÔÜ,, Ÿ:). 


5.2.7. Règle invariante de détection d’un signal à bande étroite. 
Pour prouver l'existence d’une règle invariante de détection d'un 
signal à bande étroite noyé dans un bruit normal additif de variance 
inconnue, nous allons trouver la distribution simultanée des statisti- 
ques suffisantes U, (x, y), U, (x, y), t (x, y) (voir (5.49), (5.50)). 

L 


Tout comme dans 5.2.4, normons le signal en posant ' (af + b}) = 1 
k=1 


et en introduisant l’amplitude 
N 
x = p à (ai + bf). (5.53) 


Comme il est facile de le voir, les statistiques UÙ, (x, y)/0, 
U,(x, y)/o sont indépendantes, réparties suivant les lois normales de 


paramètres [(u\/0) cos @, 1] et [(u,/o) sin mo, 1] respectivement. 
La distribution de la statistique 


1 2 
Us (x, y)=—=5 105 (x, »)+U5(x, y)] (5.54) 
est pour l'hypothèse A (Lx = 0) exponentielle (4° à deux degrés de 
liberté) de densité W, (2) = e-:/?, 20, et pour l'alternative 
K (ux > 0) 


Wit)= exp TL (us V2/6). (5.55) 


18—0165 
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La statistique 
| a LL ad 
Ui(x, v)= 7 tx, 3) — UT (x, >) — 05 (x, »)] (5.56) 
est répartie suivant une loi du 4° à 2 (N — 1) degrés de liberté. 
Des raisonnements analogues à ceux utilisés pour obtenir (5.33) 


donnent la distribution simultanée des statistiques suffisantes con- 
sidérées, soit 


W (ui, Uos D Os Dos Ds) = C (1, Ve, O3) Le (us, ue, t) X 
X exp (dus + Vous — ÙVat), 
— 00 <T Uj LT O0, —00 LT Ua L'O0, O Lt L oo, (5.57) 


où 
D, = pu, cos Py/0", + = Ly Sin Fo/0*, Ÿa — 1/(20*), (5.58) 
_ 01+05 
C(94, 82, ds) = [222 T(WN—1)71(28;)"e 1%, (5.58’) 
h (us, ue, t)=(t—u— ut)". (5.58") 
Introduisons le groupe de transformations 
g (U, t) = (aAU, at), (5.59) 
où 
U., COS Po, — SIN Po : 
U— , A=|., (5.60) 
U; Sin Pos COS Po 


et a une constante positive. En vertu de (5.57),on a 
W Ig(U, 1)1=C[8 (0, 03)] À (u4, ue, t)exp(aAOU —aô:t), (5.61) 
où 


£ (8, Û:)—(aA®, a20;), Ô — “ ) (5.62) 


Comme dans le problème envisagé on a 6; = (8 = 0, 8, > 0) 
et 0x = (18 | Æ 0, 0, > 0), il est évident que la transformation 
(5.62) satisfait à la condition (5.10), ce qui prouve que le problème 
est invariant par rapport au groupe de transformations (5.60). 

On peut montrer (voir [2, 13]) que l’invariant maximal par rapport 
au groupe de transformations (5.59) est donné par la fonction 


MU; (x, y), Ua (x, y), (x, 3) = VU: (x, y) +05 (x, »)J/£ (x, y), (5-63) 
et l’invariant maximal pour le groupe (5.62) est la grandeur 
V (Ÿ:, LR Ÿ:) — (01 + 02)/(28:) = ui/o?, | (5.64) 
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qui ne dépend pas de la phase initiale du signal et n'est rien d'autre 
que le rapport signal/bruit donné par le carré de l’amplitude du 
signal à la puissance moyenne du bruit. 


Sy Le 


[REMAPAIRESS 
SK L tF/(N -1) 


Fig. 5.3. Schéma fonctionnel du détecteur invariant d'un signal à bande étroite 
de phase inconnue noyé dans un bruit additif normal de variance inconnue. 


Les relations (5.54), (5.55) et (5.57) permettent d'écrire la dis- 
tribution simultanée des statistiques t (x, y) et U*(x, y) = Ui(x, y)+ 
+U (x y): 


W (UZ, 118, 0:)=C(0, 03) h(U, the IT, (OU), 
U>0, 1>0, (5.65) 


où # — V0? + 6. Le rapport de vraisemblance pour la famille de 
distributions (5.65) est égal à 


L(x, y) = W(U°, 118, 83) /W (U?, t10, 83) — 
= C1(0, 03) 1 (OU), U 20, (5.66) 


et se trouve être une fonction monotone de la statistique Ü* (x. y). 

Ainsi, dans le cas envisagé la règle uniformément la plus puis- 
sante, sans biais et invariante, de détection d’un signal se formule 
comme suit: le signal est présent si 


[U (x, y) +02 (x, NC, (5.67) 


1F+ 
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où le seuil C ne dépend pas du rapport signal/bruit. La statistique 
dans (5.67) suit une F-distribution *) à v, = 2, v, = 2N — 1 de- 
grés de liberté, centrée pour l’hypothese } et non centrée pour l’alter- 
native À, de paramètre d'écart u*%/0*. 

Le schéma fonctionnel du détecteur correspondant à l’algorithme 
(5.67) est donné sur la figure 5.3. 


5.3. DÉTECTION D'UN SIGNAL NOYÉ DANS UN BRUIT NORMAL 
ADDITIF DE FONCTION DE CORRÉLATION INCONNUE 


9.3.1. Détection d’un signal déterministe noyé dans un bruit quasi 
déterministe. Modifions le problème formulé dans 9.2.1. Pour la 
réalisation observée x ({), il s’agit de vérifier l'hypothèse composée A : 
x (t) = E (t) contre l'alternative composée Æ : x (t) = us (ft) + E (t), 
u > 0. Pour la représentation du signal s({) et du bruit E ({) 
de fonction de corrélation inconnue on utilise une méme base ortho- 
gonale donnée 


S (t) > a;p;(t), (5.68) 
EG = 2 Ep; (0), (5.69) 


où a — (ay, .-.., Am) est le vecteur des paramètres informationnels 
donnés et £ — (E,, ..., Em) le vecteur dont les composantes sont 
des variables aléatoires de valeurs moyennes nulles et de variances 
inconnues Of — ma {EX}, k = 1, ..., m (paramètres perturbateurs). 

On se donne les coordonnées x, du processus r (t{) observé sur 
l'intervalle (—T, T) sous la forme 


T 
zu | z(t)quit)dt, k=1,..., m. (5.70) 
2T 


Il est évident que le vecteur x = (x,, . .., x") suit une loi nor- 
male, de moyenne nulle pour l'hypothèse A, de vecteur des moyennes 
ua — (ua,,..., uan) pour l'alternative X, et de matrice de corréla- 
tion (tant pour l’hypothèse que pour l'alternative) dont les éléments 


*) L'expression de la densité de probabilité de la F-distribution est donnée 
dans [6]. Dans cet ouvrage on peut trouver les tables des quantiles pour une loi 
du F centrée (voir également le problème 5.2). 
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sont 
T 
m; {tixz}} = { qi (t) p; (u) [ > Pa (£) Pa (u) of | dt du — 
ET T 
= D Of OinÔ jh = 005, (9.71) 
k=—1 


ce qui montre que les variables aléatoires x; et x; pour i 5 j sont 
indépendantes. Il est alors facile d'écrire la distribution simultanée 
des variables aléatoires z,, À = 1, ..., m, pour u > 0 (comparer 
avec (5.15)): 


W (xlua, 0?) =(2x)7"* II exp { + > (zx — pax)2/0i } , 
R=1 Rk=1 


0 —(0,,..., 02): (5.72) 
Introduisons les désignations 


0—(8,,..., 0m), Va = ua/0Ë, (5.73) 
8'—(8,,..., On), Ox=1/(20f), (5.73’) 


C(8,8)=ITI (&)"T exp(——+ 5: 81/6,), (5.74) 
k=1 k=1 
X2=— (2, ..., 2): (5.74!) 


nous pouvons maintenant écrire (2.72) sous la forme 
Wmn (X | ua, o*) = C (®, 6) exp (8'X — 8’X°), (5.75) 


c'est-à-dire que (5.72) est une famille de densités exponentielles. 

Le problème formulé ci-dessus de la vérification des hypothèses 
équivaut à celui de la vérification de l’hypothèse composée 
H:68—-0,6,>0, k — 1,..., m contre l'alternative composée 
K: 01 = 0%, 0x >0,k —1,..., m, ® étant le vecteur des para- 
mètres informationnels, et @ le vecteur des paramètres perturbateurs. 

À partir de (5.75), on obtient l’expression du logarithme du rap- 
port de vraisemblance, à savoir 


InZ(XI 8, 8)=In nan. où gx LS 91/0, (5.76) 
h—1 


Par conséquent, en vertu de 5.1.4, la règle sans biais uniformé- 
ment la plus puissante de choix d’une décision pour le problème 
envisagé se formule comme suit: on prend la décision y; que le 
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signal est présent si 
m 
NY = = 
0"X—= > Dir, >C(X2), (5.71) 
R=1 


et la décision y; qu'il n’y a pas de signal si c'est l'inégalité inverse 
de (5.77) qui est vérifiée. 


9.3.2. Détermination du seuil. Ecrivons la statistique figurant 
dans (5.77) comme suit: 


m m 
z= D in D VÉsen x V ri. (5.78) 
hk=— 1 R=1 
Le vecteur X° — (z°, ..., zn) étant fixé, la variable aléatoire z 


est discrète prenant 2” valeurs pour différentes combinaisons des 
signes des éléments de l’échantillon X. Dans ce cas il y a lieu d'intro- 
duire une fonction de décision randomisée (voir (5.9”)) 


L: .2>0C, 
® (z) — Y» Zz — C, (5.79) 
0, :<C. 


Comme montré dans [14] pour une probabilité donnée & de fausse 
alarme, les constantes y et C sont 


y = [a27]/27, (5.80) 
C = zu, L = ([2" (1 — a)], (5.81) 
où zu) est la statistique d'ordre de l'échantillon (2, . .., Z) 


obtenue à partir de l'échantillon observé (x,, ..., x), si dans 
(5.78) on fixe x, k — 1, ..., m, et qu’on envisage toutes les 
combinaisons possibles des signes (sgn Lis + + + SEN Tm); [t] désigne 
le plus grand entier de t. 

Pour m D 1, [a2”"] & a2”" et alors y =: 0, donc la règle rando- 
misée devient la ‘règle déterministe (5.77) où le seuil C — 2” (1 — a). 


9.3.3. Règle invariante de détection. Le défaut de l'algorithme 
(5.77) est qu'il a été obtenu pour des valeurs fixées de Ÿ, (voir (5.73)) 
qui, en général, sont a priori inconnues. On évite cet inconvénient 
en utilisant le principe d'’invariance. 

Introduisons le groupe de transformations G des éléments de 
l’espace échantillonné formé par deux sous-groupes : celui de change- 
ment d'échelle G, et celui des permutations G:;: 


Ea (Zn) = Cutm RO, k—=1,..., m, (5.82) 
La(x)= (ris mi), jt, ..., 2 (5.82') 


S.3] DÉTECTION DANS UN BRUIT DE FONCTION DE CORRELATION INCONNUE 279 


“En vertu de (5.75), W, (X | ua, 0“) est invariant par rapport 
au groupe G. Il est également évident que cette transformation 
satisfait à la condition (5.10). 

L’invariant maximal par rapport au sous-groupe £g, est le vecteur 
des signes 
M, (x) = (sen x,, ..., sgn x), (5.83) 


et l’invariant maximal par rapport au sous-groupe g, le vecteur 
des statistiques d'ordre 


M, (x) = (201), ..., 2x), (5.84) 


En vertu du théorème 2 exposé dans [11], chap. 6, l’invariant 
maximal par rapport au groupe G est le vecteur 


M (x) = (sgn 20), ..., sgn 2°), (5.85) 
ou la statistique 
M(x)=— D (1+sgn x), (5.86) 


2=1 


égale au nombre de valeurs positives dans l'échantillon À. 
Ainsi, l’algorithme invariant de détection d’un signal dans le 
<as envisagé est l’algorithme de signe, unilatéral si toutes les com- 
posantes du vecteur a sont positives, et bilatéral si ces composantes 
ont des signes arbitraires. Les seuils pour une probabilité donnée 


de fausse alarme <ont donnés par des distributions binomiales 
{voir 3.2.1, 3.2.2). 


5.3.4. Détection d’un signal harmonique dans un bruit normal 
à paramètres inconnus du spectre énergétique. Nous allons envisager 
le problème de la détection d’un signal harmonique us (t) = pu cos wot 
de fréquence donnée w, et d'amplitude inconnue u >> Ô noyé dans 
un bruit normal additif stationnaire dont les valeurs échantillonnées 
Zi = titi), i — 1, 2, ..., n, satisfont à l'équation d'autorégres- 
sion d’ordre k (voir (4.159)) 


h 

NT : 

D hyrij=e, ik+1, k+2, 
J — 


où À, sont les coefficients inconnus de la régression (paramètres 
perturbateurs) et &; une suite de variables aléatoires normales indé- 
pendantes de valeurs moyennes nulles et de variances unités. Le 
spectre énergétique de ce bruit est (voir (15, 17]). 


k 
F(o)=[2:x(F,+2 D Ficos lut)]", (5.87) 
l=-1 
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où T — Lit) —— Lg, l — 4, 2, CRC et 
k 
Fi= À ir. (5.87') 
il 


Les éléments de la matrice Cr X n, inverse de la matrice de 
corrélation du bruit, sont 


Ci Fin, li—jI<k<i, j<n—k, (5.88) 
k 
Cn-itien-itt = li 2, Mesh i—jI<E, i, j<R. 
=|li-j|+i 
(5.88') 


Dans le cas envisagé la loi de distribution de l’échantillon 
X = (21, ..., z,) de la somme du signal et du bruit peut être ap- 
prochée par une famille exponentielle 


w (x 16, 8) = C (©, 8) exp {OU (x) + 8'r(x)} (5.89) 


de paramètres 
k 
O=u(F+2 > Ficos lot), (5.90) 
I=1 


Ÿ = (6:, …. Ÿ»), Vo = — Fo/2, dy= —F;, j=1, ….) k, (5.90°) 
et de statistiques 


U (x) = x's — > Zi COS Woti, (5.91) 


i=Î 
r(x)=[r1(x), ..., ra(x)], ri = 2 Titi, (5.91) 


l'approximation étant d'autant meilleure que la taille r de l’échan- 
tillon est plus grande. 

Dans cette approximation, le problème envisagé de la détection 
d’un signal harmonique se formule comme suit : vérifier l'hypothèse 
H (il n’y a pas de signal) 6 = 0, 8 étant inconnu, contre l’alterna- 
tive X (le signal est présent): 6 >> 0, ® étant inconnu. 

Si l’on arrivait à trouver une statistique Ÿ (x) — Y (U (x), 
r (x)), qui 

a) soit monotone par rapport à U pour chaque r, 

b) ne dépende pas de r pour l'hypothèse #, la règle uniformé- 
ment la plus puissante de détection d’un signal pourrait alors se 
formuler comme suit : le signal est présent (l'hypothèse À est rejetée) 
si 


Y x) >C, (5.92) 
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où le seuil C se trouve d’après une probabilité donnée de fausse 
alarme. 

La recherche de la statistique mentionnée pour des échantillons 
de taille n finie se heurte à de grosses difficultés. I] est néanmoins 
possible de donner une statistique satisfaisant aux conditions a) et 
b) lorsque nr — co. Pour le cas envisagé une telle statistique peut 
s’écrire comme suit [10]: 


kR  ,, À 2 
Y(x)=U (x) (F+2 D Ficos lot) ( D cos? @ot;) , (9.93) 
l=1 = 


J 
LS h lag Le) 
Fi= D hhi-n (5.93'} 


À (x) étant les valeurs asymptotiques (pour n7 —+ oo) des estimations 
du maximum de vraisemblance du coefficient de régression 
(voir 4.4.7) 


5.4. ALGORITHMES DE CLASSIFICATION SEMBLABLES ET 
INVARIANTS 


5.4.1. Position du problème. Dans le chapitre précédent (voir 
4.1) nous avons examiné les algorithmes adaptatifs de classification 
des observations, obtenus par substitution dans le rapport de vraisem- 
blance des estimations du maximum de vraisemblance des moyennes 
inconnues ou des matrices des covariances, estimations obtenues 
à partir des échantillons d'apprentissage classifiés. Ces algorithmes 
étaient consistants, convergeant en probabilité vers les algorithmes 
applicables dans les conditions où l’on dispose d’une information 
a priori complète, et lorsque la taille des échantillons d’apprentis- 
sage augmente indéfiniment. Il est intéressant d’obtenir les algorith- 
mes de classification adaptatifs, qui soient doués de certaines pro- 
priétés d’optimalité pour des tailles finies des échantillons d’appren- 
tissage. 

Considérons deux classes S; et S, caractérisées par les densités 
W, (x; ®,) et W, (x; Ÿ.) N-dimensionnelles où les paramètres 
inconnus Ÿ, et Ÿ, sont les points de l’espace euclidien 6 à m dimen- 
sions. On a deux échantillons d'apprentissage classifiés x;'”, ... 

.…, Xny et XŸ”, ..., Xn, appartenant aux classes S, et S, respec- 
tivement. Le problème de la classification consiste à rapporter l’échan- 
tillon observé (informationnel) x,, . .., x, à l’une des classes, S, ou 
S+. En termes de la vérification des hypothèses statistiques, ce pro- 
blème à trois échantillons peut être formulé comme un problème 
de vérification des hypothèses composées sur les paramètres de trois. 
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échantillons (dont deux sont d'apprentissage et un informationnel): 
H: (01, ®, 01), 0: € 6, i = 1; 2, 
K : (01; ET Ve); Ÿ; € 6, L — 2. 


Ecrivons l'algorithme de classification en utilisant la fonction 
de décision non randomisée ® (x‘!”, x'*’, x), où x'‘!, x‘, x sont 
les vecteurs colonnes des échantillons d'apprentissage et information- 
nel. On a alors 
1; xES, 
0. x E 191. 


À l'aide de (5.94) il est facile d'écrire les probabilités de classi- 
fication erronée. La probabilité & de classification erronée de pre- 
mire espèce est 


a—P{D—1|H}=m;{O(xt), x@®), x)|H}. (5.95) 

La probabilité $ de classification erronée de seconde espèce est 
B— P{D=0I|A}—=1—P{D—1|K}—1—-m{D(xt), x®, x)|K}. 

(5.96) 


Les paramètres Ÿ,, Ÿ, étant inconnus, il est naturel d’exiger 
que l’une des probabilités d'erreur (par exemple, &) n’en dépende 
pas, et l’autre soit la plus petite possible dans la classe de tous les 
algorithmes de classification. L'algorithme uniformément le plus 
puissant, dans la classe des algorithmes semblables, satisfait à cette 
condition. Cependant, comme nous l’avons noté à ce propos, les 
algorithmes semblables uniformément les plus puissants ou bien 
n'existent pas, ou bien leur construction se heurte à de nombreuses 
difficultés. On peut essayer de résoudre le problème en introduisant 
certaines limitations supplémentaires correspondant aux conditions 
d'application pratique des algorithmes de classification. On peut 
exiger, par exemple, que les algorithmes cherchés soient invariants 


par rapport à certains groupes de transformations de l’espace échan- 
tillonné (5.1.5). 


D (x), x(2), x) — (5.94) 


5.4.2. Algorithme optimal de classification de variables aléa- 


toires normales unidimensionnelles. Commençons par le cas le plus 
simple envisagé dans 4.1.2. Supposons que les classes S, et S, soient 
caractérisées par des distributions normales de moyennes inconnues 
a, ct a, et de variances données 0*. Par apprentissage avec maitre, 
on à obtenu les échantillons classifiés indépendants: xi'’, ..., x, 
de la classe S; et xi°”, . .., x” de la classe S,. Proposons-nous de 
trouver une règle optimale de classification, qui permette de rapporter 
l'échantillon (informationnel) observé x,. . .., r,, indépendant des 
échantillons d'apprentissage, à l’une ou l’autre classe. 
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On sait que la moyenne échantillonnée est une statistique suf- 
fisante pour la moyenne inconnue d’une distribution normale dont 
on donne la variance. Désignons les moyennes échantillonnées comme 
suit : 


a=LS a, GLS ze, (5.97) 


0 = + D zi. (5.97') 


Il est facile de voir que la transformation linéaire 


| PS # 
t, (x), x) = RE (na; + na), (5.98) 
t, (x 2) = @, (5.98) 
t3(x 0), r)=a—a, (5.98") 


permet de formuler le problème envisagé en termes de la vérification 
des hypothèses statistiques sur les valeurs moyennes des statistiques 
4, {, t, Comme suit : on vérifie l'hypothèse composée A: (a,, a:, 0) 
na; + na» 
ni+! 
Introduisons la statistique vectorielle t (z'!, x'*’, x) — (4,, t:). 
Il est évident que la moyenne conditionnelle m, {® (x ",zx",x)|H,t} 
ne dépend pas des paramètres a;, «a. Ensuite, la famille des distri- 
butions normales W (t | a;,, a.) étant complète, dans le cas envisagé 
il existe un algorithme semblable de classification de structure de 
Neyman (voir 5.1.4). Comme le rapport de vraisemblance est égal à 


contre l'alternative composée X: ( y Any Co — a). 


n(a,—a;)) ay— 14 


Pts, tas ts) = C(a1, a) exp Crenr der mn) , (9.99) 


où 0% — O*/(n1 + n), 63 — 0° (1/r, + 1/n), le rapport de vraisem- 
blance conditionnel, pour t = (f,, {.) fixé, ne dépend que de la 
statistique {:. Par conséquent, il doit exister une règle de classifica- 
tion sans biais uniformément la plus puissante, revenant à com- 
parer | {, | avec un seuil C'(t), qui pour «& donné s'obtient à partir 
de la relation 


m{D(t, tt, H}= a 
pour tous les t. 
Il est facile de voir que pour l'hypothèse Æ la statistique t, 


ne dépend pas de t.,, ni de {, sin, = n. Dans ce cas le seuil ne dépend 
pas de t et la règle optimale de classification peut se formuler comme 
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suit: l’observation x se rapporte à la classe S, si 


sl=lè— à1>)" oz, (5.100) 


et se rapporte à la classe S, si c’est l’inégalité inverse de (5.100) 
qui est vérifiée ; x, est ici l’a-quantile de la loi normale normalisée. 

Remarquons que la règle (5.100) utilise un seul échantillon 
d'apprentissage. Autrement dit, l’apprentissage préalable dans le 
cas envisagé n’est indispensable que pour l’une des classes. 


9.4.3. Algorithme de classification invariant uniformément le 
plus puissant. Pour les conditions du problème envisagé dans le 
paragraphe précédent, on examine dans [4] l’algorithme de classifi- 
cation uniformément le plus puissant, invariant par rapport aux 
deux groupes de transformations : le groupe des translations G, et le 
groupe des identités G, avec éventuellement le changement de signe. 
L'invariance par rapport à G, implique de considérer deux statistiques 
seulement, à savoir 


Led Les P Lai 


(1) _(xt2) EE  — 5 40 
U,(x"®), x) _ . , U:(x®), x) RE . (5.101) 
71 d Rs nn 


Les statistiques U, et ÜU, suivent une loi normale bidimension- 
nelle dont les paramètres sont: pour l'hypothèse # 


m,{U;1H#}=0, AU 21H} 4 — (5.102) 
À rs 
M,{U0;:1H}= M,{U0,|H}=1, (5.102”) 
Î L 1 { 1 —d;2 TO L 
p=m{UU214}= + (+) (+) | , (5.1027) 


et pour l'alternative KX 
A AU KT = TE — , m;{U,1K} = 0, (5.103) 


MAU|A}= M {U]K}=1, m{UiUlA}=p. (5.103) 


Les statistiques VU, et VU, peuvent être décorrélées par une trans- 
formation linéaire 


Pat, x, 2) = PU (at, x) D (8 x). (5.106) 
= 


U (xt), x) =U, (x), x). (5.104) 
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Les statistiques V et U sont indépendantes, normales, de variance 
unité et de moyennes égales à 


ms {V|H}= 22 (+57. m{U]H}=0, (5.105) 


[0] 


ms {VIK}=—L— En 1 LAIT, (5.105’) 


V 1—p° (u] FA n 


ms {U|K}= 4 (+). (5.105") 


Il est montré dans [4] que l'existence d'un tel algorithme de clas- 
sification utilisant les statistiques V et U implique l’invariance 
par rapport à la transformation G.. La règle de classification unifor- 
mément la plus puissante obtenue compte tenu de cette restriction 
se formule comme suit: pour une probabilité donnée & d'erreur de 
première espèce, on adopte l'hypothèse H si 


— R{IV (x, x, x)J<U (x), x) << RIV (x, x, x)], (5.106) 


où y — R (x) est la fonction inverse de la fonction 
ge IR {F2 a F(y)1— 4), (5.106) 


et F (y) l'intégrale de Laplace. L'hypothèse H est rejetée si l’une 
des inégalités (5.106) ne se trouve pas vérifiée. 

En comparant (5.106) et (4.9) on peut remarquer *) que l’algo- 
rithme de classification invariant uniformément le plus puissant 
diffère notablement de l'algorithme de classification obtenu par 
substitution, dans le rapport de vraisemblance, des estimations du 
maximum de vraisemblance des moyennes inconnues. 


- 3.4.4. Classification des ensembles normaux multidimensionnels. 
Nous allons envisager le problème de la classification dans le cas 
de la symétrie sphérique. Les classes S, et S, appartiennent à des 
ensembles normaux à V dimensions, caractérisés par des vecteurs 
des moyennes inconnus a, et a. respectivement et les matrices de 
corrélation données égales à 0*l. D’une manière analogue à ce qui 
a été exposé dans 5.4.2, on peut montrer que pour le cas multidimen- 
sionnel une règle semblable à structure de Neyman utilise la statisti- 
que 


t3 (x, x)—a—a,, (5.107) 


*) Il est évident que pour la classification d’un échantillon informationnel 
{Zi + +, Zn) de dimension n > 1 il y a lieu dans (4.9) de remplacer x par à = 


1 z 
n l 


LS 
CES 
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où a, a, sont les estimations vectorielles, égales à 


n n 
= Sue Get Sd 6.107) 
i= 1 i={ 


Cependant dans le cas vectoriel il est bien plus difficile d'écrire, 
sous forme explicite, l'algorithme non biaisé uniformément le plus 
puissant que dans le cas scalaire. 11 y a lieu, à cet effet, de se limiter 
à la classe des algorithmes, invariants par rapport au groupe de trans- 
formations orthogonales de l’espace des échantillons à V dimensions. 
L'invariant maximal pour ce groupe de transformation est donne 
par la fonction 


N 
CT ,2 
> ET 
tsta k—1 


tt 
M(x0, x)— GE(I/nt+i/n)  G(/n; + 1n) * 


(5.108) 


Comme la statistique t, suit une loi normale à V dimensions de 


« 


matrice de corrélation égale à ACTA EE et de vecteur des 


moyennes égal à zéro pour l'hypothèse H et à a, — a, pour l'alter- 
native À, J'invariant maximal (5.108) suit pour l'hypothèse # 
la loi du 7* centrée à N degrés de liberté, et pour l’alternative X 
la loi du 4° non centrée avec le même nombre: de degrés de liberté 
et le paramètre d'écart égal à 


Ê= 7 — (a, — a)" (a, — a). (5.109) 
Mais le rapport de vraisemblance 
PEL 


est une fonction monotone de M, par conséquent la règle uniformé- 
ment la plus puissante de classification dans le cas envisagé (voir 5.1.5) 
se formule comme suit: pour une probabilité donnée & d’erreur de 
première espèce, on adopte l'alternative X si 


M(x0), x) ya, (5.111) 
et l'hypothèse H si c’est l’inégalité inverse de (5.111) qui est véri- 


fiée. Dans la formule (5.111) la quantité y£ est l’a-quantile de la loi 
du 7° centrée à N degrés de liberté. 
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5.5. PROBLÈMES 


9.1. On dispose d’un échantillon indépendant de taille nr apparte- 
nant à la distribution uniforme w, (x) — 1/b, a £ x < a + b. 
Montrer que la règle semblable uniformément la plus puissante de véri- 
fication de l'hypothèse H: a — O contre l’alternative composée. 
K :a 0 est basée sur la comparaison à un seuil de la statistique: 


Yn (x) = 209/(209 — 109), (1) 


où z(1) et xtr) sont les statistiques d'ordre, minimale et maximale. 

5.2. [6]. Soient deux échantillons indépendants z,, . .., x,, et 
Yys + + ++ Yns d'une loi normale de moyennes et de variances incon- 
nues. Il y a lieu de vérifier l'hypothèse A contre l'alternative 
que 06% > 0;. Montrer que l’algorithme semblable uniformément 
le plus puissant de vérification de l'hypothèse est de la forme (pour 
une probabilité donnée œ d'erreur de première espèce) 


S'/SS>Fa(ni—1, n—1), (2} 
où 
2 1 
i=——|> nt. ) |. k=—1; 2, (3} 
i=1 j=1 


et F, (n; — 1, n; — 1) est le quantile de la distribution F à nr; — 1, 
n, — 1 degrés de liberté. La densité de probabilité de la distribution 
F à n —1, m — 1 degrés de liberté est donnée par la formule 


Wi(z)=T{(m+n—2)/2]{T [(m—1)/2]T [(n—1)/21! 


n— |! 


de 4 \-(mpn-2),2 
x (= ) PE (4 +, (4) 


m — | m— {| 


Vérifier que la probabilité d'erreur de seconde espèce dépend 
seulement de 6,/0,. 

5.3. (Test de Stein [11]. ) Considérons le problème de la détection 
d’un signal constant s(t = u (amplitude inconnue) noyé dans un 
bruit normal additif de moyenne nulle et de variance inconnue. 
Supposons que l’on prélève un échantillon indépendant x,, . .., xs, 
de taille nr, à partir duquel on calcule l'estimation sans biais de la 
variance du bruit: 


7 


br [> (a ms) |. () 


1! 2=:1 


puis on fait r — #7, observations indépendantes supplémentaires, 
avec 


n= max {[ = ]+1, ro+1}. (6} 
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où co, > 0 est une constante donnée et [z] le plus grand entier < 2. 
Montrer que la statistique 


Yn (x) = 2 ati/ V Co, (7) 


LS] 


où les coefficients de pondération satisfont à la condition 


n 
\Y 

di — CRC = An, An,+1— ee. = €h, à a; = 1, 
1—= 


ai —= Co) (8) 


suit une loi centrée de Student à 7, — 1 degrés de liberte. 
Vérifier que pour les algorithmes de détection tels que la décision 
sur la présence du signal est prise si pour u >0ona 


Un (x) Z la (20 oo. 1), (9) 
et si pour un signe quelconque 
[Yn (x) Ztuye (ro — 1), (10) 


où {;, (m) est l’À-quantile de la loi de Student à m degrés de liberté, 
la probabilité de détection correcte ne dépend pas de la variance 
du bruit et se trouve être une fonction croissante de | u |. Dans (9) 
et (10), « est la probabilité donnée de fausse alarme. 

5.4. Montrer que la règle sans biais uniformément la plus puis- 
sante, basée sur l'observation de la réalisation xz(t), |[{t|< T, 
de détection du signal us (f), où u est l’amplitude inconnue du signal 
et s (t) une fonction donnée, noyé dans un bruit additif normal de 
moyenne nulle et de fonction de corrélation donnée B (ft, y), peut 
s’écrire comme suit : on prend la décision que le signal est présent si 


T 
| V@z()dt|>drzas. (11) 
où V (t) est solution de l'équation intégrale, 
T 
| BG, nVG@ady=s(), lI<T, (12) 
—T 


Za/e eSt l’&/2-quantile de la loi normale correspondant à une pro- 
babilité donnée de fausse alarme, et 


T 
dr = | V (4)s(é)dt. (13) 
Tr 
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5.5. Pour les conditions du problème 5.4, envisager le cas où 
on sait a priori que u > 0 et montrer que dans ce cas la règle unifor- 
mément la p'us puissante consiste à adopter l'hypothèse sur la pré- 
sence du signal si 

T 


\ V(t)z(t) dt >drte. (14) 
TT 


5.6. Soient deux signaux us, (f) et Moss (f), M, LU étant les 
amplitudes inconnues et s, (t), s. (t) des fonctions données, noyés 
dans un bruit additif normal de moyenne nulle et de fonction de 
corrélation B (t, y) donnée. Montrer que la règle de discrimination 
de ces signaux, optimale d’après le critère du maximum de vraisem- 
blance et basée sur l’observation de la réalisation zx (t), |t|< T, 
peut s’écrire comme suit: on décide qu'on est en présence du signal 
bas: (4) si 


T T 
—— | ntrba>z | 62:64, (15) 
dr, La dr. Le 
où Vtt) et V,(t) sont solutions des équations intégrales 
T 
| BG y ViG)dy=si(), HIT, (16) 
T 
T 
BG y)V:@dy=s(, 11<T (17) 
=T 
et 
T 
dr, = | Vilt)sult)dt, i=1; 2. (18) 
T 
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ANNEXES 


ANNEXE 1 
ESTIMATION D’UNE DENSITÉ DE PROBABILITÉ ‘INCONNUE 


A.1.1. Méthode des fonctions potentielles. Si un échantillon indé- 
pendant y = (ÿ1, . - ., Yu) appartient à la distribution F, (x), la 
fonction de répartition empirique 


M 
Fra, = D u(z—u) (1) 


Es | 


converge en probabilité vers F, (x) pour M —, donc représente 
une estimation consistante de F, (x). En dérivant d’une manière for- 
melle les deux membres de la formule (1) on obtient l’estimation 
de ‘a densité de probabilité 
M 
WT (r, Y) = D Ô(xz — y). (2) 
1=1 
La fonction (2) devient infinie pour x = y;, i = 1,..., M, 
et est égale à zéro si l'argument x ne coïncide avec aucune valeur 
échantillonnée. Il est désirable que l'estimation de la densité soit 
obtenue à partir de (2) en remplaçant Ô (x — y;) par des fonctions 
« lissées ». Ces estimations peuvent être obtenues par la méthode 


des fonctions potentielles. 
Supposons que dans l’espace fonctionnel linéaire on ait m fonctions 
linéairement indépendantes (bases) 


D (x) = [qu (x), + - +, Pm (2)), (3) 
la matrice a formée par les produits scalaires de ces fonctions 


| Pr (x) pr (x) dr = au << 00 (4) 


n'étant pas dégénérée. Définissons comme suit la fonction delta lissée : 
Ôm (Ts 2) = Om (x) a On (2). (5) 
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Pour une fonction quelconque f (zx) représentable comme 


m 


f(2)= Dane 2 cipi(x), (6) 


1=1 
on a 


| ôn(x, 2)f(2)d2=Du(z) eat | ©, (2) Dh, (2) d2=@, (x)e, 


c'est-à-dire que l’on obtient une relation analogue à celle que l’on 
connaît pour la fonction delta (effet de filtrage): 


À ômtrs 2) f(5)de= f(x). (7) 


Si ®, est une base orthogonale, on a a;,, = a, pour Æ = I, 
any = 0 pour k* Æ Î, et à partir de (5) 


m 


êm (rs 2)= D, pa (x) pa (2). (8) 


R=1 


M. Aïzerman, D. Braverman et L. Rozonoer [1] ont proposé 
d'appeler la fonction delta (8) lissée fonction potentielle. 


Pour une base orthonormée on a ax = 1, k — 1, ..., m, et 
alors 
Om (x, 2) = On (x) Om (2) = à Pa (x) Pa (2) : (9) 


dans ce cas le système de fonctions ®,, ne doit pas être complet, sinon 
Ôm (TZ, :) devient de nouveau une fonction delta. 

Pour une base orthonormée l'estimation de la densité de pra- 
babilité peut s’écrire comme (comparer avec (2)) 


M mm 


M 
: 1 1 
Wi(z, Y = À Om (£s Vi) = 7 2 2 Pa (x) guy). (10) 


L’estimation (10) converge vers w, (x) en moyenne quadratique, 
c'est-à-dire 


lim |{[w;(z)—uwi(x, Y)J2W(y)dy=0 


Mo & 


uniformément pour toutes les valeurs de x. 


292 ANNEXES 


L'’algorithme (10) d'estimation de la densité peut s’écrire sous 
forme récurrente. Nous allons écrire (10) comme suit: 
M-! 
DA (z, Y) = + ôm (x, Ya) + De Ôm (TZ — Yi) — 
i-1 
M-! 
57 D ôntz y). 1) 
i=1 


M étant un entier positif quelconque, en introduisant la dési- 
gnation ° 


. 
dir (x, N=<+ Dô(z, y, r=1,..., M, (12) 
i= 1 


on obtient à partir de (11) l'algorithme de récurrence suivant: 


Dir (x, YF) = wi, r21 (2, V1) + (6m (x, Yr)— Li, ri (x, y1!)}, 
(13) 


où y! — (y1, - . ., yr). Il est facile de voir que la procédure d'esti- 
mation de la densité de probabilité est, en vertu de (12), un cas parti- 
culier de l’algorithme de l'approxzimation stochastique (voir annexe 2). 

La méthode envisagée peut être généralisée à l'estimation d’une 
densité de probabilité multidimensionnelle w, (x) = w, (x, ..., x). 
Soit y; — (Yins + + +, Yi) Une suite de vecteurs appartenant à la 
distribution w, (x) et soit 


On (x) = [ps (x), + - ., Pm (x)}, (14 
Pi (x) —— WI (2; .…..) Zn), 


F4 l=)j, 
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X 


(14) 


une base orthonormée. 
D'une manière analogue à (9), on trouve la fonction delta lissée 
de plusieurs variables 


m 


Ôm (%r 2) = On (x) On (z) = à P (x) Pa (2) (15) 


R= 
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et l’on obtient l’estimation de la densité de probabilité multidimen- 
sionnelle sous la forme 
| M 
Un (x, Vis co) Yu) TU > Om (X: yi) cu 
ii 
M m 


= D D qu(x) px (59. (16) 


i—1hk=—1! 


A.1.2. Méthode de Parzen-Nadaraïa [2, 3]. Soit y—(y:. ... 
.., Yu) un échantillon indépendant d'une distribution inconnue 


de densité w, (x). Ecrivons l’estimation w, (x, y) de la densité in- 
connue comme suit: 
M 


; » | T— y; ” 
Wi(z, Y) = on 2 K[éan] (17) 


où À (z) est une fonction de pondération quelconque devant satis- 
faire aux limitations naturelles suivantes: 


oQ 


0<K (2) < 0, | K (z) dz=1. (18) 
Si de plus 
de zK (z)=0, (19) 
12} 00 
lim k(M)=0, (19°) 
M—00 


en un point quelconque de la continuité de w, (x) l’estimation (17) 
tend vers w, (rx) en moyenne quadratique. 
Par exemple, la fonction 


K(2)— =a/2 (20) 


TE x 
satisfait à ces conditions. 

L’estimation (17) peut être généralisée au cas multidimensionnel. 
Soit Yi - - +, Ya une suite de vecteurs indépendants de dimension nr 
appartenant à la distribution multidimensionnelle w, (x). 

Pour estimer la densité w, (x) de dimension r on peut utiliser 
la statistique suivante: 


ln (x, Vis cs Yu) = 


n M n 
s [M Il hi CR 2 {ll K ET FL 1}, (21) 
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où y;, est le i-ième élément du vecteur échantillonné y4, L = 1, ... 
..., M, appartenant à la distribution w, (x). Si la fonction Æ (2) 
satisfait aux conditions (18), (19), (19°) et si de plus 


lim [| A (M) =0, (22) 
M—00i=1 
lim M [[ A (M)=00, (22') 
M—00 {—=1 
on a également 
dim mi {lün (xs as ++. Var) —wn (m1) = 0 (23) 


en chaque point de continuité de w, (x). 


ANNEXE 2 
APPROXIMATION STOCHASTIQUE 


A.2.1. Estimation de la racine de l’équation ‘de régression. Soit 
x une variable aléatoire répartie suivant la loi F, (x | Ü) dépendant 
du paramètre Ÿ et de variance finie, de plus 


mi {x | Ÿ} = m (0) < 00 (1) 


et m (Ÿ) est une fonction monotone croissante de Ÿ. On demande 
d'estimer la racine Ÿ — Ô0* de l'équation de régression 


m (Ÿ) = c (2) 
en supposant que cette racine existe et que les fonctions F, (x | ) 
et m(ÿ) sont inconnues. H. Robbins et S Monro ont 


proposé [12] la procédure itérative dite d’approximation stochastique 
permettant d'obtenir une estimation de la racine 8* à l’aide d’une 


suite d'observations successives zx,, - .., z,, où x, est la valeur 
observée de la variable aléatoire x pour Ÿ — Ÿ,, c'est-à-dire 
ma: {x | dx} = Mm (0), k — dl: e + +9 Pl: (3) 


Soient Ÿ, un nombre constant quelconque et {a,} une suite 
de nombres positifs quelconques satisfaisant aux conditions sui- 
vantes : 


M2 


dn == ©, 


1142 


a << 00. (4) 
1 


n= Î 


(Par exemple, la suite de termes de la série harmonique a, = i/n 
satisfait aux conditions (4).) Le fpremier élément x, de l’échantillon 
est la valeur observée de x pour 8 = 8,. On suppose ensuite 0, — 
= Ÿ, + a, (c — zx,). Pour 8 = Ÿ, on observe de nouveau la variable 


ANNEXES 295 


aléatoire x et l’on obtient l'élément x. de l'échantillon. L'étape 
suivante consiste à calculer la valeur 0: — 8, + a (c — 2x2). 

En continuant la procédure d'’itération proposée on obtient la 
relation de récurrence suivante *): 


Vn+1 =0,—+a, (c— zh). (5) 


Il est montré dans [12] que lorsque la taille de l'échantillon 
d'apprentissage augmente indéfiniment, la grandeur aléatoire 6,,; 
définie par (5) tend en probabilité vers la racine Ÿ* de l’équation (2), 
c'est-à-dire pour & > 0 on a 


lim P{|0:141 —Ÿ0*] Ze} =0. (6) 


Ainsi, pour nr donné la grandeur Ÿ,, définie par (5) peut être 
considérée comme une estimation consistante de la racine de l’équa- 
tion de régression. Pour c — 0 la relation (5) donne l'estimation 
de la position sur l’axe Ÿ du zéro de la fonction de régression m (Ô). 

En vertu de (5), la suite de grandeurs aléatoires {8,,, — d,} 
est indépendante, car la suite de grandeurs aléatoires {x,} est 
indépendante. Par conséquent, la suite d’estimations {Ÿ,} est une 
suite aléatoire à accroissements indépendants. 

Notons que la première des conditions (4) laisse un libre choix 
de la valeur initiale 6, (on peut la choisir aussi éloignée que l’on 
veut de Ÿ*), tandis que la seconde condition assure la convergence 
de Ÿ, vers Ÿ* pour nr —+ co. 

Pour certaines limitations supplémentaires imposées à la fonction 
de régression, l’estimation Ÿ,:, tend en moyenne quadratique (pour 
n — co) vers la racine de l'équation (2) (voir [8]). Dans [1, 3] la 
procédure de Robbins-Monro est généralisée au cas multidimension- 
nel. Le cas limite, lorsqu'on résout le problème en présence d’une 
réalisation d'apprentissage continue, a été envisagé par nombre 
d'auteurs (voir [4 à 6]). Les méthodes permettant d’accélérer la con- 
vergence de l’approximation stochastique ont été envisagées dans 
[9, 11, 14]. Le cas où la racine cherchée 8* varie durant la procé- 
dure d'’itération a été envisagé dans [7]. Un exposé systématique 
de la théorie de l'approximation stochastique est donné dans [2]. 


A.2.2. Estimation de l’extrémum de la fonction de régression. 
On peut utiliser une procédure itérative analogue à (5) pour estimer 
l'extrémum de la fonction unimodale de régression m (Ô), c'est-à-dire 
pour estimer la racine unique Ÿ* de l’équation 


dm (Ô)/dû = 0. (7) 


*) Si m (Ÿ) est une fonction monotone décroissante, on remplacera le signe 
plus devant a, par le signe moins. 
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Cette procédure a été proposée par J. Kiefer et J. Wolfo- 
witz [10]. Soient {a,} et {c,} des suites de nombres positifs satis- 
faisant aux conditions 
San = 0, Ÿ AnCn < D; > (2) < o, (8) 
n= |! n=—Î! n=1{ 
et supposons que l’on ait un échantillon d'apprentissage indépendant 
Ti» - + <> Ton pour lequel 


M {Ton On + Cr} = m (0: + cr), (9) 
Mi {ton Vn — Cr} = M (x — Cr), k=1, os D. (9”) 


Tout comme dans le problème de l’estimation de la racine de 
l'équation de régression, la valeur initiale Ÿ, est quelconque. La 
procédure itérative de l’estimation de la position sur l’axe 8 de l’ex- 
trémum de la fonction de régression, est donnée par la relation sui- 
vante: 


Dati = PE (Tan — ani)» (10) 


où le signe plus correspond au cas du maximum de la fonction de 
régression, et le signe moins au minimum. Il est montré dans [19] 
que lorsque Ja taille de l’échantillon d'apprentissage augmente indé- 
finiment, la variable aléatoire Ÿ,:, définie par (10) tend en proba- 
bilité vers la racine 8* de l’équation (7), celle-ci donnant la posi- 
tion de l’extrémum de la fonction de régression m (ÿ) sur l'axe #. 
Les conditions assurant la convergence en moyenne quadratique 
sont données dans [8]. Dans [3], on trouvera une généralisation au 
cas multidimensionnel discret, et dans [13] au cas multidimensionnel 
continu. 

Les algorithmes d’approximation stochastique envisagés peuvent 
être également utilisés pour l’estimation du zéro ou de l’extrémum 
d’une fonction de régression de la forme m, {f (x) | 8}, où f (x) 
est une fonction donnée de la variable aléatoire répartie suivant 
F, (x | 9). Dans ce cas il y a lieu de remplacer dans (5) et (10) les 
échantillons d'apprentissage x, par f (x). 
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A A" N E X E 4 
TABLES 


A.3.1. Tables des valeurs du seuil | C| dans l’algorithme de signe 


[e 2 
0.025 | 0,01 [0,005 


8 9 9 30 | 20 21 22 90 | 32 33 34 
11 9 9 10 31 21 22 23 02 | 33 34 35 

9 10 10 | 32 22 23 23 94 | 34 39 36 
13 10 11 11 33 22 23 24 96 | 35 31 38 
14 11 11 12 34 23 24 24 98 | 36 38 39 
19 11 12 12 35 23 24 25 60 | 38 39 40 
16 12 13 13 | 36 24 25 26 62 | 39 40 41 
17 12 13 14 37 | 24 26 26 64 | 40 41 42 
18 13 14 14 38 | 25 26 27 66 | 41 42 43 
19 14 14 15 | 39 | 26 27 27 68 | 42 44 45 
20 14 15 16 | 40 | 26 27 28 10 | 43 45 46 
4à 
45 
47 
48 
49 


œ 


œ 
0,025 | 0.01 ss] 


0.025 | 0,01 | u,vus 


21 15 16 16 | 41 27 28 29 72 46 47 
22 16 16 17 42 | 27 28 29 14 - 41 48 
23 16 17 18 | 43 | 28 29 30 76 48 49 
24 17 18 18 | 44 28 30 30 18 49 50 
25 17 18 19 | 45 29 30 31 80 90 91 
26 18 19 19 | 46 30 31 32 85 | 52 53 94 
27 19 20 20 | 47 30 31 32 90 | 54 96 57 
28 19 20 21 48 31 32 33 95 | 57 29 60 
29 20 21 21 49 31 33 33 | 100 | 60 62 63 


LH NporRese H est rejetée si le nombre de signes + cest sunérieur à celui de la table- 
voir 2.3.1) 

La table donne également deux limites A et n -{[C| dans l'algorithme bila- 
téral de signe pour la valeur double (voir 2.3.2 


A.3.2. Distribution de la statistique signe-rang 
Pour des valeurs données de # et z la table indique les probabilités 
(voir 2.4.1) 


a=P{Sn(r) <r}=P { Sat > De Y 


n | As | 7 | AS Le 2 | X 


10 10 0,0420 8 0,0244 5) 0,0098 3 
11 13 0,0415 10 0,0210 7 0,0093 5 0,0049 
12 17 0,0461 13 0,0212 9 0,0081 7 
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n | x | @ x | (e 2 | x | (2 | x | œ 
143 21 0,0471 17 0,0239 12 | 0,0085 9 | 0,0040 
14 25 | 0,0453 21 0,0247 145 | 0,0083 12 | 0,0043 
15 30 | 0,0473 25 | 0,0240 19 | 0,0090 15 | 0,0042 
16 35 | 0,0467 29 | 0,0222 23 | 0,0091 149 | 0,0046 
17 41 0,0492 34 | 0,0224 27 | 0,0087 23 | 0,0047 
18 47 0,0494 40 | 0,0242 32 | 0,0091 27 0,0045 
49 53 | 0,0478 46 | 0,0247 37 | 0,0090 32 | 0,0047 
20 60 | 0,0487 52 | 0,0242 43 | 0,0096 7 0,0047 
22 15 | 0,0492 65 | 0,0231 55 | 0,0095 48 | 0,0046 
24 91 0,0475 81 0,0245 69 | 0,0097 61 0,0048 
26 110 | 0,0497 98 | 0,0247 84 | 0,0095 75 | 0,0047 
28 130 | 0,0496 116 | 0,0239 101 0,0096 91 0,0048 
30 151 0,0481 137 | 0,0249 120 | 0,0098 | 4109 | 0,0050 
32 175 | 0,0492 159 | 0,0249 140 | 0,0097 128 | 0,0050 
34 200 | 0,0488 182 | 0,0242 162 | 0,0098 148 | 0,0048 
36 227 | 0,0489 208 | 0,0248 185 | 0,0096 1741 0,0050 
38 256 | 0,0493 | 235 | 0,0247 211 0,0099 194 | 0,0048 
40 286 | 0,0486 | 264 | 0,0249 238 | 0,0100 | 220 | 0,0049 
42 319 | 0,0496 | 294 | 0,0245 | 266 | 0,0098 | 247 | 0,0049 
44 353 | 0,0495 | 327 | 0,0250 | 296 | 0,0097 76 | 0,0049 
46 389 | 0,0497 361 0,0249 | 328 | 0,0098 7 | 0,0050 
48 426 | 0,0490 | 396 | 0,0244 | 362 | 0,0099 | 339 | 0,0050 
50 466 | 0,0495 | 434 | 0,0247 397 | 0,0098 | 373 | 0,0050 
A.3.3. Distribution de la statistique de Kendall 
Pour des valeurs données de nr et & la table indique les valeurs minimales 
de C satisfaisant à l'inégalité (voir 2.5.5) 
P{Sn(x N>C}<a 
Le 4 @œ 
0,005 [0,010 [0,025 | o,050 | 0,100 0,005 | 0,010 [0,025 | 0,050 | u,100 
10 | 29 27 23 21 17 22 91 83 71 61 47 
11 33 31 27 23 19 | 24 | 104 94 80 68 54 
12 38 36 30 26 20 | 26 | 117 | 107 91 77 61 
13 | 44 40 34 28 24 | 28 | 130 | 118 | 100 86 | 65 
14 | 47 43 37 33 25 | 30 | 145 | 131 | 111 95 75 
19 53 49 41 35 29 32 160 | 144 122 | 104 82 
16 | 58 52 46 38 30 | 34 | 175 | 157 | 133 | 113 | 89 
T 64 58 50 42 34 | 36 | 190 | 172 | 146 | 122 | 96 
18 | 69 63 53 45 37 | 38 | 205 | 185 | 157 | 133 | 105 
19 15 67 57 49 39 40 | 222 | 200 | 170 | 144 | 112 
20 | 80 72 62 52 42 
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CHAPITRE 2 


La théorie de la vérification des hypothèses sur la forme de fonctions de 
répartition doit beaucoup aux travaux fondamentaux de A. Kolmogorov 
et N. Smirnov [29, 14, 15]. Pour une première étude des méthodes de la 
statistique non paramétrique on peut recommander l'ouvrage d'introduction 
de G. Noether [33]. Pour une étude plus détaillée de ces méthodes voir 
D. Fraser (26],J. Bredley [20],M. Puri et P. Sen [34]. Dans 
l'ouvrage de J. Hajek et Z. Sidak [5] on trouve un exposé complet et 
systématique de la théorie des statistiques de rang, ainsi qu’un examen détaillé 
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de la littérature. Les applications pratiques des algorithmes non paramétriques 
de vérification des hypothèses statistiques aux problèmes de la détection des 
signaux noyés dans des bruits sont traitées dans l'ouvrage [17] (chap. 8) et l’ar- 
ticle de D. Thomas {18|. 

Les statistiques de rang mixtes ont été proposées et étudiées par E. Feus- 
tal et LL. Davisson dans [24, 25]. Le détecteur signe-quantile et le 
corrélateur de coïncidence des polarités modifié sont étudiés dans les ouvrages 
de D. Laïniotis [30, 31]. Un algorithme de rang simple a été proposé par 
D. Lomakine {13]. L'ouvrage (36] est consacré à l'étude de l'efficacité 
du corrélateur de coïncidence des polarités pour la détection d’un signal stochas- 
tique. et l'ouvrage [27] à l'efficacité d'un détecteur utilisant la statistique de 
Kendall. Les algorithmes non paramétriques séquentiels ont été étudiés dans [19]. 
L'influence de la corrélation des bruits sur les algorithmes de signe et de rang 
a été envisagée dans [23, 37, 38]. 
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CHAPITRE 3 


La théorie des algorithmes asymptotiquement optimaux de vérification des 
hypothèses statistiques est basée sur es travaux fondamentaux de L. Le Cam 
[27, 28]. Ces travaux ont servi de point de départ pour J.Hajek (3. 26] 
et D. Tchibissov [23] qui ont obtenu des résultats importants pour la 
théorie asymptotique de la vérification des hypothèses statistiques dans le cas 
où l’échantillon observé est homogène et indépendant. C'est le cas de la détec- 
ne ie signal constant noyé dans des bruits indépendants (détection d’un 
« biais»). 

L'auteur du présent ouvrage et ses collaborateurs A. Kouchnir, 
A. Pinski, A. Rybine et V. Baronkine [5,6, 8 à 18, 29 à 31] 
ont donné des généralisations au cas des échantillons non homogènes (non sta- 
tionnaires) et non corrélés, ce qui correspond aux signaux radio-électriques brouil- 
lés de la pratique courante, ainsi qu’au cas du traitement postdétecteur et des 
observations quantifiées, ces applications ont une grande portée pratique. Cer- 
tains résultats donnés dans nos travaux ont été obtenus indépendamment par 
G. Roussas etR. Jonson. Un exposé rigoureux et complet des fon- 
dements mathématiques de la théorie envisagée, avec des généralisations ulté- 
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rieures, est donné dans la monographie de G. Roussas (34] destinée à un 
lecteur averti. La monographie de V. Likharev [20] est consacrée aux al- 
gorithmes numériques de détection des signaux noyés dans des bruits. 
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CHAPITRE 4 


L'exposé systématique des questions liées à la classification des ensembles 
normaux multidimensionnels est donné dans [2] (voir également [39], [40|). 
L'algorithme de classification des ensembles normaux avec auto-apprentissage 
est exposé dans (42, 64]. Les articles [10. 15, 16] sont consacrés à l'étude des pro- 
priétés asymptotiques des statistiques de classification lors de l’augmentation 
du nombre d'indices informationnels. Dans les ouvrages {13, 60] on peut trou- 
ver un examen détaillé de la théorie de la reconnaissance des images et de ses 
applications. On trouvera un aperçu général des derniers ouvrages américains 
dans (45, 66]. 

L’exposé des $$ 4.3.2 et 4.3.3 est basé sur [6, 38, 54]. Dans les articles [39, 
61] on peut trouver un exposé des procédures semi-euristiques de choix de déci- 
sions. Un exposé plus détaillé de la procédure adaptative de Bayes proposée 
par H. Robbins est donné dans [19, 24]. Un grand nombre d'ouvrages est 
consacré aux méthodes itératives de construction des algorithmes adaptatifs. 
Bornons-nous à citer les ouvrages parus ces dernières années [1, 3, 8, 20, 29, 32, 
33, 65]; ils donnent ensemble un tableau assez complet de l’état de cette branche 
de la théorie. 

L'ouvrage plus ancien [4] peut servir d'introduction à la théoric de l'adap- 
tation. Dans [8] on trouvera une étude détaillée de la méthode de minimisation 
du risque empirique, que l’on a omise ici (voir également [49]). La méthode en- 
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visagée dans 4.3.10 a beaucoup en commun avec celle exposée dans [63]. Pour 
les algorithmes d'apprentissage sans maître voir également [11. 46, 58, 44]. 
Les systèmes d'apprentissage à mémoire finie sont étudiés dans [47, 48]. 

Pour surmonter l’indétermination a priori des paramètres perturbateurs 
V. Répine et G Tartakovski [5] ont proposé une méthode ada 
tative. fs ont utilisé cette méthode pour l’élaboration des procédures à pas mul- 
tiples de prise d'une décision [30]. 

Des algorithmes adaptatifs asymptotiquement optimaux de détection des 
signaux sont étudiés dans la thèse de A. Pinski Pl. La méthode proposée 
par ŸY. Sossouline pour la synthèse des algorithmes adaptatifs asympto- 
tiquement optimaux de détection des signaux noyés dans des bruits, dans le 
cas d’une indétermination paramétrique et non paramétrique des signaux ct des 
bruits [26 à 28] utilise la corrélation des estimations. 

Les propriétés asymptotiques des estimations de Bayes des paramètres 
du signal sont exposées dans [17, 18, 55]. 
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CHAPITRE 5 


L’exposé systématique de la théorie des règles semblables et invariantes 
de vérification des hypothèses composées est donné dans l’ouvrage de E. Le h- 
mann [11]. On peut recommander au lecteur ayant pris connaissance de ce 
livre de se référer aux monographies [5, 12]. La méthode régulière de recherche 
de l’invariant maximal a été proposée par V. Kouznetsov [8]. Les prin- 
cipes d’invariance et de similitude sont utilisés dans [1] pour la synthèse des 
algorithmes de détection d’un signal en présence de paramètres inconnus (per- 
turbateurs). 

Le problème de la détection d’un signal noyé dans un bruit de variance in- 
connue est étudié dans [2, 7, 13, 19]. La thèse de G. Skvortsov [14]lest 
consacrée à l’une des méthodes de solution du problème de la recherche de la 
règle invariante de détection d’un signal noyé dans un bruit de fonction de cor- 
rélation inconnue. 

L’algorithme optimal de classification des variables aléatoires unidimen- 
sionnelles a été étudié par C. Rao {[18].S. Gupta [16] a donné une géné- 
ralisation au cas multidimensionnel. P. Dankov [4] a proposé un algorith- 
me de classification invariant uniformément le plus puissant. Dans [3] sont cons- 
truites les règles de classification semblables asymptotiquement optimales 
basées sur la théorie exposée au chapitre 3 du présent ouvrage. 
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